Você está na página 1de 50

Testes de hipteses

Sua aplicaes e limites

Testes de hipteses
Sua aplicaes e limites

Seminrios de mtodos e
anlise de dados

Doutoramento em Psicologia
Fevereiro 2010

Enquadramento dos Testes de


Hipteses na Estatstica

Lus Fasca

A importncia da Estatstica

Diviso clssica da Estatstica

Representao matemtica do real

Estatstica descritiva
Anlise
estatstica

MUNDO REAL

NMEROS

(objecto de
estudo)

(representao
matemtica)

Estatstica indutiva
(ou inferencial)

Estatstica descritiva

A importncia da Estatstica

Conjunto de procedimentos para

amostragem

POPULAO
(estudantes da
UALG)

Estatstica

amostra

Aquilo que se
conhece atravs
da Estatstica
Descritiva

organizar e sumariar a informao de


uma forma to breve e precisa quanto
possvel.

100 alunos inquiridos

Inferncia
Aquilo que
se pretende
conhecer

Generalizar com segurana para a


populao a descrio obtida na amostra

Aplicaes da estatstica descritiva

Descrio univariada
Aptido Numrica em estudantes do 9 ano
N = 150 alunos; aptido numrica medida pela GATB

An
Anlise descritiva (uni e bivariada)
bivariada)
Descrever e resumir conjuntos volumosos de dados
Grficos / Tabelas / Estatsticas descritivas
An
Anlise descritiva (multivarida
(multivarida))
Representaes grficas multidimensionais
Reduo da dimensionalidade dos dados

Descrio univariada

39

34

31

34

46

28

50

42

23

39

33

33

19

39

36

18

26

24

30

19

20

35

35

35

36

33

51

23

39

54

23

32

43

23

34

35

32

25

24

38

41

22

21

35

24

29

30

42

42

22

21

22

41

39

29

22

41

44

42

20

37

38

38

26

43

43

53

52

41

31

44

48

41

27

39

39

40

42

43

42

48

36

23

41

37

42

40

25

41

45

24

34

46

26

47

55

27

33

49

33

36

42

47

25

36

38

41

38

45

37

39

34

44

38

46

40

25

39

29

41

24

25

28

21

35

40

37

40

35

37

48

35

43

21

27

37

17

20

27

39

34

31

45

36

32

38

28

44

50

25

Descrio bivariada
Existe relao entre a nota de ingresso do aluno num curso de licenciatura e
resultado que ele obtm no primeiro teste efectuado na Universidade?

Mdia = 35,19
Desvio-padro = 9,00
Mediana = 37
Mnimo = 17
Mximo = 55

Estatstica descritiva
univariada

Descrio bivariada

Descrio multivariada
Caracterizar rela
relao entre diversas vari
variveis
Teste 1 = - 8,72 + 1,24 * Nota ing
R2 = 28,6 %

Estatstica
descritiva
bivariada

Ser possvel distinguir tipos de dificuldades de aprendizagem a partir


de uma bateria de doze testes de avaliao?
N = 10 estudantes com problemas de aprendizagem
Tcnica de anlise Q

Descrio multivariada

Descrio multivariada
8
7
S08
6
S04

S10

S09

4
S05

S02
3
S01
2

S06
S03

S07
1
0
0

Estatstica descritiva multivariada

Estatstica descritiva multivariada

(anlise de clusters)

(escalonamento multidimensional)

Estatstica indutiva

Erros envolvidos no estudo de


amostras e de populaes

Conjunto de procedimentos usados


para fazer inferncias a partir de
informao parcial, avaliando o grau de
incerteza envolvido da generalizao.

Aplicaes da estatstica indutiva


An
Anlise inferencial
Estimao intervalar
Testes de hipteses
Modelao

Estimao de parmetros (valores


desconhecidos da populao)
Qual a percentagem de estudantes universitrios dispostos a
experimentar drogas duras?

Amostra representativa da populao, controlando variveis


consideradas importantes (amostra estratificada, e.g.)
Questionrio adequado a este tema sensvel e
contabilizao das respostas
Dos 350 estudantes inquiridos, 24
disseram que Sim

Estimao de parmetros
H 95% de confiana
de que a
percentagem de
estudantes
dispostos a
experimentar drogas
duras se situa entre
4,21% e 9,51%

Populao

Amostra

Testes de hipteses

6,86% de
respostas Sim
(N = 350)

Avaliar se as diferen
diferenas observadas na amostra
reflectem diferen
diferenas reais na popula
populao ou se, pelo
contr
contrrio, se devem ou no ao acaso.
Teste de hipteses
a) Formular uma hiptese
b) Recolher dados amostrais para verificar se
apoiam ou no a hiptese
c) Avaliar o grau em que esse apoio se pode
dever ao acaso

Estatstica indutiva - estimao

Testes de hipteses

Modelao

A presena de rudo ambiental afecta a memorizao de um texto?

Itens corretamente
evocados (%)

Hiptese (nula): a memorizao de um texto to boa em silncio como


em condies de rudo
90
85
80
75
70
65
60
55
50

Explicitar as relaes que se estabelecem num


conjunto alargado de variveis.

Significncia da
diferena

Silncio

Rudo

Condio experimental

No h diferenas
significativas no tempo
de resposta entre as
duas condies
experimentais (p > 0,2).

Estatstica indutiva testes de hipteses

Estatstica

Modelao por path analysis

Testes de hipteses
Sua aplicaes e limites

A Estatstica Descritiva permite descrever a


amostra e a Estatstica Indutiva permite
generalizar com confiana essa descrio

Testes de hipteses

para a populao de onde a amostra foi


retirada, recorrendo para isso Teoria das
Probabilidades.

Teste de hipteses

Tipos de teste estatsticos

O teste de hipteses a tcnica da Estatstica Indutiva


mais utilizada na investigao em Psicologia.
Consiste em averiguar se a hiptese formulada sobre
aspectos desconhecidos de uma populao ou no
apoiada pela informao contida na amostra retirada
dessa populao.

Passos num teste de hipteses


Passo 1. A questo em investigao dever permitir
formular uma hiptese sobre um ou mais parmetros
desconhecidos da populao.
A formulao de hipteses um formalismo deste
procedimento; na maior parte das vezes, a hiptese de
investigao contrria hiptese nula em que se baseia
o teste estatstico.

1) Testes unilaterais e bilaterais


Testes unilaterais menos exigentes, pois as suas
hipteses implicam fundamentao a priori.
2) Testes paramtricos e no paramtricos (distribution
free)
Testes no paramtricos menos exigentes em termos
das condies de aplicao mas, eventualmente,
menos potentes para detectar diferenas.

Passos num teste de hipteses


Pergunta teoricamente relevante:
Durante a adolescncia, sero os rapazes mais ansiosos do que as
raparigas?

Hiptese nula: O nvel mdio de ansiedade na populao de rapazes


igual ao da populao de raparigas

H0: M = F

Passos num teste de hipteses

Passos num teste de hipteses

Passo 2. Extrair uma amostra da populao, aplicar uma


medida de ansiedade e calcular as estatsticas descritivas
relevantes.

As medidas de ansiedade que usamos no so


totalmente fiveis, envolvendo margem de erro.

M = ?
F = ?

XM = 28
XF = 32

Amostra
100 rapazes
100 raparigas

No havendo possibilidade de avaliar a ansiedade de


todos os adolescentes (rapazes e raparigas) da
populao sobre a qual se pretende tirar concluses,
limitmo-nos a estudar a uma amostra (por exemplo,
duas ou trs escolas de Faro).

Populao

Passos num teste de hipteses


Pelo menos, duas fontes de erro:
erro de medio

erro de amostragem

Informao amostral
sobre nvel de ansiedade
no 100% segura

Passos num teste de hipteses


Amostra
XM = 28
XF = 32

A diferena de 4 pontos
observada entre rapazes e
raparigas reflecte uma diferena
real ou apenas aparente
(devida aos erros envolvidos na
obteno destas mdias)?

Passos num teste de hipteses

Passos num teste de hipteses

Passo 3. Maquinaria dos testes de significncia

Distribuio de amostragem

Recorrendo Teoria das Probabilidades e assumindo


algumas condies, possvel saber em que medida
duas mdias amostrais contaminadas de erro podem
diferir entre si quando a amostra provm de uma
populao semelhante estipulada na hiptese (ou seja,
em que no h diferena entre rapazes e raparigas).

Como se comportam todas as


mdias que se podem extrair de
uma populao com as
caracterstica especificadas na
hiptese nula?

Passos num teste de hipteses

Passos num teste de hipteses

Conhecimento a priori das distribuies de amostragem


Estatstica Clssica

Pergunta a que responde um teste de significncia:


Se no existir diferena entre os nveis mdios de
ansiedade de rapazes e raparigas (hiptese nula), qual
a probabilidade de, devido ao acaso, encontrarmos uma
diferena igual (ou mais extrema) do que observada na
amostra?.

Passos num teste de hipteses


Amostra

Passo 4. Deciso

XM = 28
XF = 32
SM = 12

Teste t de
Student
t = 2,45

SF = 14
NM = 100

Passos num teste de hipteses

df = 98

NF = 100

A probabilidade de
a diferena entre
p = 0,015
rapazes e raparigas
Significncia observada na
amostra se dever
ao acaso 0,015.

Erros envolvidos numa deciso


estatstica

Como pouco provvel que os dados observados


provenham de uma populao com as caractersticas
especificas em H0, devemos abandon-la e concluir que
existem diferenas entre rapazes e raparigas.

Ser uma deciso correcta?

Erros envolvidos numa deciso

%&'!(&(

Caracterizao da populao
(desconhecida)
H0 verdadeira

H0 falsa

Aceitar H0

Deciso correcta
(aceitar H0
quando ela
verdadeira)

Deciso errada
Erro de tipo II
(aceitar H0
quando ela
falsa)

Rejeitar H0

Deciso errada
Erro de tipo I
(rejeitar H0
quando
verdadeira)

Deciso correcta
(rejeitar H0
quando ela
falsa)

Deciso
do teste
estatstico

Erros envolvidos numa deciso


estatstica
Na tomada de deciso estatstica importante considerar
o risco (probabilidade) de cometer os dois tipos de erro:

Probabilidade de cometer erro de tipo I =


nvel de significncia do teste
Probabilidade de cometer erro de tipo II = 1
complementar da potncia do teste


 !"#$



 
  

  



 
 




Nvel de significncia do teste


O nvel de significncia do teste corresponde
probabilidade de nos estamos a enganar ao rejeitar H0
(rejeitar a hiptese quando ela verdadeira - erro de
tipo I). Deve ser definido antes da realizao do teste.
Por exemplo, se o teste indicar a rejeio de H0 (sugerindo-nos
haver diferena de ansiedade entre rapazes e raparigas) isso
pode ser um erro pois podemos estar perante uma situao rara
em que a diferena observada se deve realmente ao acaso (e
no haver diferena verdadeira na populao entre rapazes e
raparigas).

Nvel de significncia do teste


Em geral, define-se em 5% o nvel de significncia
do teste .
Este valor resulta de uma conveno e no tem nada
de especial; por vezes utilizam-se nveis de
significncia mais exigentes (por exemplo, 1%), outras
vezes nveis menos exigentes (10%), mas o valor de
5% o tradicionalmente mais utilizado. Porqu?

Nvel de significncia
De uma maneira geral, pretende-se que a probabilidade
de cometer o erro de tipo I seja mnima. No entanto, esta
probabilidade no pode ser reduzida a 0 pois diminui-la
em excesso faz aumentar a probabilidade de cometer o
erro de tipo II. Por isso, pode no ser adequado usar
nveis de significncia muito baixos.

Potncia do teste

Potncia do teste

A potncia do teste 1-
corresponde probabilidade
de no nos estamos a enganar ao aceitar H0 (aceitar a
hiptese quando ela falsa - erro de tipo II).

A determinao da potncia do teste complexa e, entre


outros factores, depende da dimenso da amostra:
amostras de maiores dimenses garantem testes mais
potentes.

Um teste potente permite-nos decidir com um baixo


risco de nos enganarmos quando aceitamos H0, ou seja,
d-nos segurana que no h diferenas reais entre
rapazes e raparigas quando o teste sugere que no se
rejeite H0.

Pode-se estabelecer partida a potncia do teste, bastando


para isso definir a dimenso da amostra necessria para
garantir que uma diferena de determinada magnitude na
populao tenha probabilidade elevada de ser realmente
detectada (por exemplo, potncia do teste 1 - = 0,80).

Potncia do teste

Nvel de significncia e potncia do


teste

Apesar de ter vindo a ser secundarizado face ao nvel de


significncia, a questo da potncia do teste fulcral: de
nada serve realizar um teste estatstico que no tenha
potncia para detectar a diferena teoricamente
especificada ficamos sempre na dvida se H0
realmente verdadeira ou se, pelo contrrio, falsa mas o
teste no teve suficiente potncia para detectar essa
falsidade .

Relao entre e (quando se assume que a distribuio de


amostragem das mdias amostrais normal).

Elementos na anlise da potncia de


um teste

Potncia do teste

Variabilidade dos dados (no temos grande controlo


sobre este elemento)

Como aumentar a potncia de um teste?

Magnitude da diferena que se pretende detectar

Aumentar a dimenso das amostras

Nvel de significncia do teste (risco de cometer o erro


de tipo I)

Aumentar a magnitude da diferena que se pretende


que o teste detecte

Dimenso da amostra

Diminuir o nvel de significncia

Power Curve

Curva da potncia do teste

Que potncia?
No h critrios universal.

high

C
Nvel optimizado

O que mais importante?

Eficaz mas ineficiente

Sample Power

Falhar uma tendncia?


Detectar uma tendncia falsa?
A

Geralmente entre 80% e 95%

Ineficaz
low
small

Sample Size

large

Testes de hipteses
Sua aplicaes e limites
Testes de hipteses para
comparao entre grupos

Comparaes entre grupos


A comparao de grupos um dos formatos mais
usuais na investigao psicolgica:

 Comparao entre grupos naturais (diferenas entre

sexos, por exemplo) ou entre populaes clnicas


(grupos de dislxicos face grupo de controlo de
idade)
Comparao entre grupos experimentais (grupo que
recebe o tratamento experimental versus grupo de
controlo)

Comparaes entre grupos


Alguns aspectos a levar em considerao:

 Natureza mtrica da varivel em estudo (nominal /


de escala)

 Natureza dos conjuntos de medidas (amostras


independentes / amostras emparelhadas)

 Nmero de grupos em comparao

Comparaes entre grupos


Caso de variveis nominais

Comparaes entre grupos


Caso de variveis de escala
Se o nvel de medida da varivel em questo de
escala, a comparao entre grupos geralmente
corresponde a testes de hipteses sobre valores
mdios. Na verdade, ao comparar grupos estamos, em
geral, interessados em tomar decises sobre a
magnitude dos valores que a varivel toma populaes
de onde foram extrados os grupos.
Por exemplo, verificar se h diferenas entre rapazes e
raparigas na Aptido verbal.

Testes de hipteses
Sua aplicaes e limites

Se o nvel de medida da varivel em questo nominal,


a comparao entre grupos geralmente corresponde a
testes de hipteses sobre propores ou a testes de
independncia entre variveis.

Comparao entre duas


mdias grupos

Por exemplo, comparar se a percentagem de


reformados igual na populao de utentes de dois
servios hospitalares.

Testes de hipteses
Sua aplicaes e limites

Testes sobre diferenas entre dois


valores mdios (amostras independentes)
Condies de aplicao

A. Amostras
independentes

 Uma das variveis est medida no formato escala; a


outra varivel define os grupos (pode ser dicotmica
ou dicotomizada)
 A distribuio das variveis deve ser normal ou a
dimenses dos grupos a comparar deve ser grande
 A varincia de cada grupo deve ser semelhante
(homogeneidade das varincias).

10

Testes sobre diferenas entre dois


valores mdios (amostras independentes)

Num estudo sobre o efeito da estimulao durante o sono na


aprendizagem, dividiu-se aleatoriamente um conjunto de 62
crianas em dois grupos. Durante um ms, todas as noites
enquanto dormiam, metade das crianas foram expostas a uma
gravao udio com um relato de informao sobre Histria de
Portugal. As restantes crianas foram expostas a um gravao
udio de discurso sem informao relevante.

A hiptese nula postula que os dois grupos tm


mdia igual.
A rejeio da hiptese nula (p ) indica que existem
diferenas significativas entre as duas mdias.
A magnitude da diferena pode ser avaliada por uma
medida de magnitude do efeito (effect size)

Participantes

Exemplo
Resultados obtidos nos dois
grupos. Uma das crianas do
grupo
experimental
no
compareceu ao teste.

Grupo
Experimental

Participantes

No final do ms, os conhecimentos de Histria de ambos os


grupos foram avaliados atravs de um teste (classificao de 0 a
20). Verifique se o procedimento seguido teve efeito significativo
( = 0.05).

Grupo de
Controlo

19

17

14

14

20

12

10

14

16

11

17

10

15

18

13

10

12

10

16

10

11

19

11

12

15

12

18

13

13

13

20

14

17

14

14

15

18

15

13

16

19

16

19

17

19

17

18

17

18

15

19

19

16

20

12

20

15

21

14

21

22

10

22

10

23

18

23

12

24

15

24

18

25

25

14

26

14

26

27

17

27

13

28

17

28

16

29

14

30

12

Exemplo

Que teste?

9
17

29

Hipteses:
H0: Exp = Cont versus H1: Exp > Cont
Teste de
diferenas

Teste de unilateral
direito

Teste de unilateral direito de diferenas entre valores


mdios (para dois grupos independentes).

13

30

15

31

Mdia

14,967

Mdia

13,545

Desviopadro

3,232

Desviopadro

3,601

Diferenas significativas?
A avaliao da significncia
da diferena entre dois
valores mdios no
depende apenas do valor da
diferena mas tambm da
sobreposio das duas
distribuies (ou seja, da
sua disperso).
No exemplo, apesar da
diferena entre valores
mdios ser idntica nas trs
situaes, essa diferena
aparenta ser mais
significativa apenas na
situao de baixa disperso.

Teste t de Student para amostras


independentes
Condies de aplicao
 Amostras aleatrias retiradas de populao normal ou amostras
com dimenso suficientemente grande para se aplicar o Teorema
do Limite Central (em geral, N 30 para ambas as amostras).
OK (N = 31 para o grupo de controlo e N = 30 para o grupo
experimental)
 Homogeneidade das varincias: as varincia / desvios-padro
dos dois grupos tm de ser iguais. A razo desta exigncia que
o teste assume que as populaes de onde vm as duas
amostras so iguais em tudo (distribuio, disperso, etc)
excepto nos respectivos valores mdios.
A verificar (S = 3,232 para o grupo de controlo e S = 3,601 para o
grupo experimental)

11

Teste t de Student para amostras


independentes

Condies de aplicao
Verificao de normalidade (desnecessrio neste caso pois as

Condies de aplicao:

amostras so grandes)

 As observaes da amostra 1 so independentes das


observaes da amostra 2.
OK (os resultados de um grupo no afectam os resultados de
outro grupo)
 A varivel em estudo tem de estar medida pelo menos numa
escala quasi-intervalar (quasi-intervalar, intervalar ou de
quociente).
OK (varivel: classificao obtida no teste)

Grfico de quartis

Grfico de quantis da normal

Condies de aplicao
Verificao da homogeneidade das varincias
Grupo Experimental
S2 = 3,2322 = 10,4458

Teste de Levene para averiguar a


homogeneidade das varincias
Hipteses do teste de Levene
(teste de homogeneidade das varincias):
H0: 2Exp = 2Cont versus H1: 2Exp 2Cont

Grupo Controlo

No SPSS, este teste vem includo no output do teste t de


Student para amostras independentes.

S2 = 3,6012 = 12,9672
As varincias so grosseiramente semelhantes (a diviso de uma pela
outra d cerca de 1,2), embora convenha sempre efectuar um teste
estatstico formal para garantir que no h razes para as assumirmos
como diferentes (teste de Levene para a igualdade de varincias).

Teste de Levene (output do SPSS)


Estatsticas descritivas para cada
grupo (mdia, desvio-padro e
erro-padro da mdia)

Teste de Levene sobre


homogeneidade de varincias

Valor p do teste de
Levene no
significativo

Teste de Levene para averiguar a


homogeneidade das varincias
Concluso do teste de Levene
Rejeita-se H0 ao nvel de significncia = 0,05, ou seja,
pode-se considerar que as varincias dos dois grupos
so iguais (F = 0,54, p = 0,467).
Assegura-se assim o pressuposto da homogeneidade
das varincias, pelo que se pode prosseguir com o teste
t para avaliar a diferena entre valores mdios.

12

Teste t (output do SPSS)

Deciso
Como o teste unilateral, tem de se dividir por dois o valor
calculado pelo SPSS.
Assim, Sig. = 0,071/2 = 0,036 < .

Estatstica de
teste

Valor p do teste t
(bilateral)

Consequncias de violar as condies de aplicao


do teste t de Student

Logo, rejeita-se H0 ao nvel de significncia = 0,05, ou seja, o


grupo experimental tem, em mdia, um desempenho superior no
teste de Histria do que o grupo de controlo (t = 1,84, gl = 59, p =
0,036), indicando que a estimulao durante o sono teve um efeito
positivo significativo na aprendizagem.

Consequncias de violar as condies de aplicao


do teste t de Student

Normalidade

Homogeneidade das varincias

O teste t robusto face violao do pressuposto da normalidade


da distribuio da varivel, mesmo com amostras pequenas. Assim,
as consequncias da no normalidade dos dados afecta
minimamente os erros de tipo I e tipo II envolvidos na deciso.

O teste t baseia-se nos desvios-padro das duas amostras para


obter uma estimativa conjunta de 2 (S2pool). Se no existir
homogeneidade das varincias, esta estimativa conjunta no faz
sentido.

Por exemplo, se a distribuio da varivel em estudo for assimtrica e as amostras


em comparao tiverem dimenses to pequenas como 5, sabe-se que a verdadeira
margem de erro de tipo I envolvida na deciso poder afastar-se no mximo em 2%
do valor de estipulado, o que negligencivel em termos prticos (Hsu & Feldt,
1969). No entanto, ainda assim existe a possibilidade de recorrer a testes no
paramtricos alternativos (teste de Mann-Whitney).

Consequncias de violar as condies de aplicao


do teste t de Student

Sabe-se que o teste t robusto face violao do pressuposto da


homogeneidade das varincias desde que as duas amostras
tenham igual dimenso nestes casos, as consequncias da
heterogeneidade das varincias afectam minimamente os erros de
tipo I e tipo II envolvidos na deciso.

Consequncias de violar as condies de aplicao


do teste t de Student

Homogeneidade das varincias


Contudo, quando as amostras tm dimenso diferente, verificase que:
 Se a amostra maior tiver a maior varincia, o teste t
conservador (ou seja, a probabilidade real de cometer o erro de
tipo I mais pequena do que o valor estipulado).
 Se a amostra mais pequena estiver associada maior varincia,
o este t bastante liberal (ou seja, a probabilidade real de
cometer o erro de tipo I superior ao estipulado) situao mais
problemtica.

Homogeneidade das varincias


O SPSS fornece uma correco ao teste t para as situaes de
heterogeneidade das varincias (procedimento de Welch), que
consiste num ajustamento dos graus de liberdade.
Um procedimento alternativo para lidar com a estas situaes
realizar um teste no-paramtrico equivalente, que no exija
homogeneidade das varincias (teste Mann-Whitney).

13

Testes de hipteses
Sua aplicaes e limites

Testes sobre diferenas entre dois


valores mdios (amostras emparelhadas)
A hiptese nula postula que os dois conjuntos de
dados provm de populaes com valor mdio igual.

B. Amostras
emparelhadas

Exemplo

As investigaes que levam recolha de dados


emparelhados surge em estudos longitudinais (o
mesmo indivduo observado duas vezes) ou quando
indivduos diferentes so emparelhados por
diferentes razes (por semelhana em variveis
relevantes ou por pertencerem mesma unidade, por
exemplo um casal).

Exemplo
Participante

Manh

Tarde

Participante

Manh

Tarde

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

7
5
6
5
5
4
5
5
6
6
5
6
4
5
6

6
4
5
4
4
4
4
4
7
5
5
5
4
6
5

16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

5
7
6
5
6
6
5
5
5
6
5
3
7
4
4

5
6
5
6
5
5
4
5
5
5
5
5
7
3
5

Para avaliar o efeito dos ritmos circadianos na memria, um


conjunto de 30 crianas com idades entre 6 e 9 anos realizaram
uma prova de memria imediata (digit span) de manh e a mesma
prova 12 horas depois.
Teste, ao nvel de significncia = 0,05, se existem diferenas
significativas no desempenho observado nos dois momentos.

Amostras independentes versus


Amostras emparelhadas

Que teste?

Se cada observao da amostra 1 puder ser emparelhada a uma


observao da amostra 2, os dois conjuntos de dados no so
independentes mas emparelhados.

Hipteses:
H0: Manh = Tarde versus H1: Manh Tarde

Teste de
diferenas

Teste de bilateral

Teste de bilateral direito de diferenas entre valores


mdios (para dois grupos emparelhados).

Amostra 1

Amostra 2

Observao 1

Observao 1

Observao 2

Observao 2

Observao n

Observao n

No caso de amostras emparelhadas,


a unidade em estudo no a
observao mas sim o par de
observaes.
No se pretende saber se existe
diferenas entre a mdia das
observaes do grupo 1 e a mdia
das observaes do grupo 2 mas
sim saber se a mdia das diferenas
entre os elementos de cada par
significativa.

14

Amostras independentes versus


Amostras emparelhadas

Designaes para este tipo de design:


 Amostras emparelhadas (versus amostras independentes);
 Medidas repetidas (versus medidas independentes);
 Planeamento experimental intra-sujeito (versus planeamento
entre-sujeitos) (within subjects versus between subjects).

Teste t de Student
(para amostras emparelhadas)

Teste t de Student
(para amostras emparelhadas)
Condies de aplicao:
 Amostras aleatrias retiradas de populao normal ou
amostras com dimenso suficientemente grande para se
aplicar o Teorema do Limite Central (em geral, N 30 para
ambas as amostras).
OK (N = 30 pares de observaes)
 Observaes emparelhadas.
OK (estamos perante um design com medidas repetidas, uma
vez que cada sujeito o controlo de si prprio)

Teste t de Student para amostras


emparelhadas (output do SPSS)

Varivel que corresponde ao


desempenho dos sujeitos
durante a manh

Data view: os valores


observados
nos
dois
momentos de avaliao
so dispostos lado a lado
em colunas diferentes
(faceta T da data box).

Estatsticas descritivas para cada


conjunto de observaes (mdia, desviopadro e erro-padro da mdia)

Varivel que corresponde


ao desempenho dos
sujeitos durante a tarde

Correlao existente entre os dois conjuntos de


observaes reflecte o grau em que o desempenho
da manh est relacionado com o desempenho da
tarde. No entanto, no esclarece se h diferena no
nvel mdio desses dois desempenhos.

Teste de diferenas entre valores mdios

Deciso

Como Sig. = 0,025 = < , rejeita-se H0.


O desempenho no teste de memria diferente quando este
realizado de manh e tarde (t = 2,36, 29gl, p = 0,025),
indicando que o ritmo circadiano poder influenciar o
desempenho neste tipo de prova.

Teste de diferenas significativo

E se no se respeitassem
as medidas emparelhadas?
Se, em vez de 30 pares de
observaes, considerssemos
que existiam 60 observaes
independentes (30 de manh e
30 de tarde), os dados estariam
lanados numa nica coluna, j
no havendo o cuidado de
emparelhar o desempenho do
mesmo
sujeito
nos
dois
momentos.

Varivel que identifica o


momento da observao

Varivel correspondente
ao desempenho na prova
de memria

O teste a utilizar seria o teste t


para amostras independentes.

15

Utilizar o procedimento de medidas


repetidas sempre que os dados o permitam

Output do SPSS

O teste para amostra emparelhadas mais potente na deteco de


diferenas que o teste para medidas independentes, pois anula a
varincia (rudo) causada pelo facto de haver sujeitos diferentes nas
duas condies experimentais (quando as amostras so
emparelhadas, o mesmo sujeito exposto s duas condies
experimentais, pelo que se anula, parcialmente, o efeito das
diferenas individuais).
Teste de diferenas no significativo

O facto de se ter ignorado o emparelhamento dos dados resulta numa


concluso diferente no h diferenas entre o desempenho de manh e
tarde. Porqu, se os dados (nmeros) so idnticos?

Testes de hipteses
Sua aplicaes e limites
Parte 2
Comparao entre mais
do que dois conjuntos
de medidas

Exemplo
Pretende-se avaliar se o nvel mdio de satisfao dos estudantes
com os Servios Sociais da Universidade igual nas diferentes
faculdades (FCHS, FCT, FERN, FCMA e FE).
Haver diferenas significativas, ao nvel de significncia de = 5%,
entre as cinco faculdades?
Como responder a esta questo?

Quanto maior a correlao entre as observaes do par, maior a


vantagem em usar o procedimentos para amostras emparelhadas.
No entanto, o design com medidas repetidas tem alguns problemas
intrnsecos (aprendizagem, mortalidade experimental, carry over
effects).

Testes de hipteses sobre diferenas


entre mais de dois valores mdios

Teste t para diferenas entre valores mdios: adequado


na testagem de hipteses sobre dois valores mdios.
Que fazer quando se pretende comparar mais do que
dois valores mdios?

O problema das comparaes


mltiplas
Bastar comparar as faculdades duas a duas com um teste t para
amostras independentes?
Quantos testes t teriam de ser feitos?
5C
2

= 10

(FCHS vs FCT; FCHS vs FERN; FCHS vs FCMA; etc)

Se em cada um destes testes corremos um risco de chegar a


uma deciso errada (5%), qual a probabilidade cometermos erro
ao basearmos a nossa concluso geral nas dez comparaes?

16

O problema das comparaes


mltiplas
Se quisermos decidir se as faculdades so ou no iguais em termos
de satisfao, ao fazer as comparaes par a par empolamos o risco
de cometer um erro de tipo I (achar que h diferenas quando, na
verdade, no existem).
Probabilidade de cometer pelo menos um erro de tipo I ao fazer k
comparaes duas a duas atravs de um teste t ao nvel de
significncia (experimentwise error):
1 (1 - )k

O problema das comparaes


mltiplas

O problema das comparaes


mltiplas
No caso de = 0,05 e k = 10 comparaes, vem:
1 (1 0,05)10 = 0,4013
O risco de nos enganarmos demasiadamente alto para ser
considerada uma abordagem estatisticamente segura. Mesmo
que no haja diferena entre as faculdades, h 40% de
probabilidade de pelo menos um teste t indicar que existe uma
(falsa) diferena (rejeitar H0).

O problema das comparaes


mltiplas

1,00
0,95
0,90
0,85
0,80
0,75

Prob erro Tipo I

0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10

Nvel de signif icncia nominal

0,05

A probabilidade de tomar pelo


menos uma deciso errada
aumenta marcadamente com o
nmero de grupos a comparar.
Por exemplo, se compararmos 8
grupos, h 75% de probabilidade
de cometer pelo menos um erro.

10

11

12

13

14

A abordagem ao problema em causa fazendo testes t mltiplos


inadequada, porque o risco de nos enganarmos aumenta
proporcionalmente ao nmero de comparaes que tm de ser
feitas.
De que alternativas dispomos?

0,00
2

Concluso:

15

k - n de grupos

Valor da probabilidade de cometer pelo menos


um erro de tipo I ao comparar k grupos

Nota: estes clculos assumem que os


testes t so independentes, o que no
rigorosamente verdade uma vez que se
baseiam em informao sobreposta, o que
piora ainda mais este cenrio.

Testes de hipteses
Sua aplicaes e limites

A. Amostras
independentes

ANOVA
A tcnica estatstica denominada ANOVA (Analysis of
Variance) foi desenvolvida por Ronald Fisher (18901962) para poder testar em simultneo a igualdade do
nmero de valores mdios que se pretender, sem
empolar o valor de .
Trata-se, assim, de um procedimento ideal para
comparar o valor mdio de mais de dois grupos.

17

Exemplo

Factor e Varivel dependente

A fim de estudar o efeito do rudo ambienta na compreenso de


um texto lido, dividiram-se nove pessoas por trs condies
experimentais: Grupo 1 silncio; Grupo 2 com msica de fundo
instrumental; Grupo 3 com rudo (no musical) de fundo.

Varivel dependente

No final, fez-se a cada pessoa um total de dez perguntas sobre o


texto lido, registando-se o nmero de respostas correctas. Haver
diferena entre as condies experimentais?

Varivel independente (factor)

Que teste?

Hipteses na ANOVA

Hipteses:

Algumas precises sobre o teste de hipteses atravs de ANOVA:

H0: Os k valores mdios so iguais


versus
H1: Pelo menos um valor mdio diferente dos restantes

 As hipteses so globais (omnibus) apenas se testa o efeito


global da experincia (hiptese nula de que os valores mdios
so todos iguais versus a hiptese alternativa de que pelo
menos um deles diferente dos restantes).

H0: 1 = 2 = 3

versus H1: i,j, i j

Repare-se que a hiptese nula se refere globalmente a


todos os grupos do estudo (hipteses omnibus, global).

Condies de aplicao da ANOVA


 Amostras aleatrias retiradas de populaes normais ou
amostras com dimenso suficientemente grande para se
aplicar o Teorema do Limite Central (em geral, N 30).
 Homogeneidade das varincias: as varincia (desviospadro) dos diferentes grupos tm de ser iguais.
 As observaes de cada grupo so independentes entre si.
 A varivel em estudo tem de estar medida, pelo menos, numa
escala quasi-intervalar (quasi-intervalar, intervalar ou de
quociente).

Desempenho no teste de compreenso (n de respostas


certas)

Rudo de fundo trs nveis: silncio versus msica de fundo


instrumental versus rudo (no musical) de fundo.

 Numa ANOVA no se coloca a questo do teste ser bi ou


unilateral.
 No aceitar a hiptese nula no nos esclarece onde reside a
diferena detectada essa anlise feita numa fase posterior.

Violao das condies de aplicao


A ANOVA robusta face a violaes de algumas
condies referidas, nomeadamente a exigncia de
normalidade (desde que todos os grupos tenham
dimenso suficiente) e a exigncia da homogeneidade
das varincias (desde que os grupos tenham dimenso
semelhante).
Mais grave a violao da independncia das
observaes entre grupos (no devem estar
correlacionados; resolve-se garantindo a aleatoriedade
na formao dos grupos em comparao).

18

Mecanismo da ANOVA
Embora se denomine anlise de varincia, trata-se de
um procedimento para averiguar se os valores mdios
so estatisticamente diferentes (e no para ver se as
varincias so diferentes).
O nome resulta da ANOVA recorrer ao clculo de varincias para
decidir se as mdias so diferentes. O raciocnio o seguinte:
calcula-se a varincia dentro de cada grupo e depois compara-se
com a varincia entre os grupos se houver diferenas, porque
as mdias dos grupos so diferentes.

Exemplo

Mecanismo da ANOVA
Na ANOVA, avalia-se em que medida duas fontes de
variabilidade contribuem para a variao total dos dados:
* Alguma variao resulta da diferena entre indivduos
dentro de cada grupo (variao within, residual ou varincia
dentro do grupo)
* Alguma variao resulta das diferenas introduzidas pelos
grupos (variao between, ou varincia entre grupos)

ANOVA e teste de valores mdios

Nmero de respostas correctas em cada grupo:

Mdia

Grupo 1

Grupo 2

Grupo 3

Haver diferena entre os valores mdios das populaes de onde


vieram estes trs grupos?
Para isso, a ANOVA vai comparar a varincia dentro dos grupo
(varincia natural dos dados) com a varincia entre mdias (varincia
devida ao efeito diferenciador das condies experimentais).

Estatstica de teste e sua distribuio


Na ANOVA a estatstica de teste designada por F e corresponde
ao quociente entre a varincia entre grupos e a varincia residual:

A estatstica F segue uma distribuio F de Snedecor com 1 = k-1


gl (associados ao numerador) e 2 = N-k gl (associados ao
denominador).

Nota: os graus de liberdade indicados correspondem situao em que os k grupos


tm a mesma dimenso, formando um total de N observaes.

A Anlise de Varincia compara a varincia dentro dos


grupos (varincia residual ou varincia within) com a
varincia entre grupos (varincia entre grupos ou
varincia between).
Se a varincia residual for claramente inferior
varincia entre grupos, ento pode-se afirmar que os
valores mdios so diferentes.

Oneway ANOVA (output do SPSS)


Estatsticas descritivas por
grupo (mdia, desviopadro, erro-padro da
mdia, IC, mnimo e
mximo)

Teste de Levene para avaliar o pressuposto


da homogeneidade das varincias

Tabela ANOVA (resultados


do teste de comparao de
mdias)

19

Tabela ANOVA

Tabela ANOVA
N de grupos - 1

Valor p

Fontes de
variao dos
dados

Soma de
quadrados

Graus de
liberdade
associados a
cada soma de
quadrados

Estimativa da
varincia
(mdia
quadrtica)

Estatstica
F

Valor p
A adio das Somas
de Quadrados
corresponde Soma
de Quadrados total
Os graus de
liberdade
tambm
somam

Deciso

N-1

As mdias quadrticas
resultam de dividir a
Soma de Quadrados
pelos graus de
liberdade
correspondentes

A estatstica F resulta
da diviso da Mdia
Quadrtica between
pela Mdia
Quadrtica within

Oneway ANOVA (output do SPSS)


Grfico de mdias
(means plot), permite
visualizar que mdias
so diferentes

Se Sig. , rejeita-se H0, o que se verifica no presente exemplo


(Sig. = 0,001 < 0,05).
Logo, rejeita-se H0 ao nvel de significncia = 0,05, ou seja,
pelo menos um dos grupos tm valor mdio diferente dos
restantes [F(2, 9) = 15,6, p = 0,001].

O Grupo 1 (silncio)
aparenta
diferir
dos
restantes dois.
Como verificar estatisticamente se assim ?

Anlises posteriores

Anlises post-hoc

Se no se rejeitar H0, fcil concluir que os grupos so idnticos.


Mas se se rejeitar H0, apenas sabemos que pelo menos um dos
grupos diferente dos restantes. Como determinar os grupos que
diferem entre si?

Existem inmeros procedimentos para decidir que mdia so


realmente diferentes umas das outras.

G1 = G2 = G3

No rejeitar H0

G1 (G2 = G3) ou G2 (G1 = G3) ou G3 (G1 = G2)

Rejeitar H0

G1 G2 G3

Todos estes procedimentos consistem em comparar pares de


mdias, mas agora estas comparaes esto protegidas quanto
ao empolamento do erro de tipo I.
H procedimentos mais conservadores e procedimentos mais
liberais sem razo especial, vamos utilizar o procedimento
post-hoc de Tukey HSD (honestly significant difference).

Em que situao estamos?

20

Anlises post-hoc

Anlises post-hoc
As condies organizam-se em dois
grupos: Condies 3 e 2 (que
apresentam mdia com valores 4 e 5)
e Condio 1 (que apresenta mdia
com valor 8).

Valor p para a diferena


entre cada par de
condies

Assinalam-se com * as
diferenas significativas
para o valor de escolhido

Valor da diferena para


cada para de mdias

Valor p para a diferena


entre as mdias dentro
de cada grupo

Anlises post-hoc procedimento de


Bonferroni

Concluso final
Em resumo, as diferenas detectadas pela ANOVA resultam do
Grupo 1 ter uma desempenho significativamente mais elevado
que os outros dois grupos (Grupo 1 vs Grupo 2: p = 0,008; Grupo
1 vs Grupo 3: p = 0,001), que, por sua vez, no se distinguem de
forma estatisticamente significativa (Grupo 2 vs Grupo 3: p = 0,409).

Uma outra forma de realizar anlises post-hoc controlando a taxa de


erro global (experimentwise error) atravs do procedimento de
Bonferroni, que aqui se vai descrever por ser fcil de conduzir
manualmente.
Se pretendemos fazer uma anlise post-hoc aps rejeitar na ANOVA
uma hiptese omnibus, basta realizar as k comparaes atravs
testes t entre pares de mdias e utilizar como nvel de significncia
no mas sim /k.
Trata-se de um procedimento conservador, mas fcil de aplicar.

Anlises post-hoc procedimento de


Bonferroni
Comparao

Estatstica t

GL

Valor p

Grupo 1 vs Grupo 2

t = 5,20

0,002

Grupo 1 vs Grupo 3

t = 4,90

0,003

Grupo 2 vs Grupo 3

t = 1,22

0,267

Anlises post-hoc outros


procedimento
O SPSS oferece 18 alternativas no que
respeita anlise post-hoc.
Alguns critrios podem nortear a escolha
de uma dessas alternativas:

Como so trs grupos em comparao, vamos utilizar o nvel


de significncia /3 = 0,05/3 = 0,0167.

 Controlo sobre o erro de tipo I

Apenas a comparao 2 vs 3 no significativa para este nvel


de significncia corrigido.

 Desigualdade no tamanho dos grupos a comparar

 Controlo sobre o erro de tipo II


 Heterogeneidade das varincias

21

Anlises post-hoc outros


procedimento

Contrastes a priori

Dimenso
dos grupos

Homogeneidade
das varincias

Procedimento post-hoc

Grupos
iguais

Varincias iguais

Tukey
REGWQ
Bonferroni (conservador)

Varincias
diferentes

Gabriel (pouco diferentes)


Hochberg GT2 (muito diferentes)

Varincias
diferentes

Games-Howell

Grupos
diferentes

Em vez de olharmos para as diferenas entre todos os pares de


grupos, podemos estar interessados em apreciar contrastes
planeados a priori.
Por exemplo, num estudo experimental, pode interessar comparar
o grupo de controlo com dois grupos experimentais. Estes
contrastes devem ser especificados antes da realizao do teste
omnibus.

Segundo Field (2000)

Contrastes a priori
O SPSS disponibiliza um conjunto de contrastes a priori:
Contraste
Deviation (first / last)

Compara o efeito de cada nvel (excepto o primeiro /


ltimo) com o efeito global do estudo

Simple (first / last)

Cada nvel comparado com o primeiro / ltimo

Repeated

Cada nvel comparado com o nvel seguinte

Helmert

Cada nvel comparado com o efeito mdio das


categorias seguintes

Difference

Cada nvel comparado com o efeito mdio das


categorias anteriores

Polynomial

Testa tendncias lineares, quadrticas e cbicas e


qurticas nos dados

Relao entre o teste t e a ANOVA


unifactorial

Exemplo
Considere que se planeara a priori contrastar o efeito da condio
Silncio com o efeito das outras duas condies. O contraste
adequado ser o de Helmert.
O silncio (nvel 1) difere
significativamente
da
mdia dos outros dois
nveis (p = 0,000). No
entanto, os outros dois
nveis no diferem entre si
de forma estaticamente
significativa (p = 0,213).

Testes de hipteses
Sua aplicaes e limites

O teste t um caso particular da ANOVA unifactorial (quando o


nmero de grupos em comparao 2).
Nessa situao, o valor da estatstica F corresponde ao quadrado
da estatstica t. O valor p ser idntico em ambos os testes.

B. Amostras
emparelhadas

22

ANOVA com medidas repetidas


EXEMPLO
Objectivo: avaliar o efeito da cor na identificao e nomeao de
objectos.

ANOVA com medidas repetidas


Desenho experimental intra-sujeitos (o mesmo sujeito exposto s
trs condies amostras emparelhadas)
Factores:

Desenho experimental: 25 sujeitos expostos a trs condies


experimentais (os objectos a nomear so representados atravs
desenhos, fotografias a preto e branco ou fotografias a cor).
Todos os sujeitos foram expostos a cada uma das condies
experimentais.

Tipo de imagem: desenho, foto B&W, foto cor


(factor within subject)
Varivel dependente:
Tempo de nomeao

Ateno aos efeitos de ordem!

Fontes de variao nos dados

Hipteses sobre valores mdios

Porque que duas observaes so diferentes?


 Porque os sujeitos nomearam estmulos
coloridos (efeito do factor Tipo de imagem)

diferentemente

 Porque os sujeitos so diferentes (efeito residual)

Dados

H0: No h diferenas no desempenho mdio dos sujeitos nas


trs condies experimentais
H1: Em pelo menos uma das condies experimentais o
desempenho mdio dos sujeitos difere do desempenho nas
restantes condies

A questo da esfericidade

Vinte e cinco sujeitos expostos a trs


condies experimentais, definidas
consoante o tipo de imagem a nomear.
Os valores referem o tempo mdio de
nomeao das imagens (em
segundos) para cada condio.

Teste da esfericidade
Quando o factor within tem mais do que duas modalidades, necessrio que
se verifique a esfericidade da matriz das covarincias. Trata-se de uma exigncia
semelhante homogeneidade de varincias, mas desta vez para o caso da ANOVA
com medidas repetidas.
Na presente situao, rejeita-se H0 [X2(2) = 14,4, p = 0,001], ou seja, no se pode
assumir a esfericidade da matriz de co-varincias, pelo que preciso seguir alguns
cuidados na realizao desta ANOVA de medidas repetidas.

23

ANOVA para medidas repetidas


(output do SPSS)

ANOVA para medidas repetidas


(output do SPSS)

A significncia do
efeito do Tipo de
Imagem l-se nesta
linha pois no se
pode assumir a
esfericidade dos
dados.

Efeito do Tipo de
Imagem
A nomeao dos
desenhos parece ser mais
lenta do que a nomeao
das fotografias, quer sejam
a cor ou a preto e branco.

A correco de Greenhouse-Geisser altera os grau de liberdade da estatstica F, de


forma a garantir maior fiabilidade aos resultados da ANOVA.

Efeito do Tipo de Imagem


Rejeita-se H0 [F(1.4, 32.8) = 45,9, p = 0,000], ou seja, o tempo de nomeao
das imagens foi influenciado pela manipulao experimental (presena ou
no de cor).

ANOVA para medidas repetidas


(output do SPSS)

Relao com outros procedimentos para teste


estatstico de hipteses sobre valores mdios

Tal como o procedimento One-way ANOVA a generalizao do


teste t de Student (Two independent samples t test) para situaes em
que se pretende comparar a mdia de mais do que duas amostras
independentes, tambm o procedimento Repeated measures ANOVA
a generalizao do teste t de Student (Two paired samples t test)
para situaes em que se pretende comparar a mdia de mais do que
duas amostra emparelhadas.

Anlise post hoc atravs do


mtodo de Bonferroni

Comparao entre modalidades


O tempo de nomeao dos desenhos
estatisticamente diferente do tempo de
nomeao dos outros dois tipos de imagem
(fotos B&W e fotos Cor).

Testes de hipteses
Sua aplicaes e limites

Se no se cumprirem os requisitos mnimos de aplicao da ANOVA


com medidas repetidas, sempre possvel recorrer ao teste no
paramtrico de Friedman.

rvore de deciso para testes sobre


valores mdios
Testes noparamtricos

Ordinais

Parte 3
Testes no paramtricos
(distribution free)

Amostras pequenas
(N < 30)

Tipo
de
dados

No se sabe se as
amostras provm de
populaes normais
Amostras grandes
(N 30)

Escala
Amostras provm de
populaes normais

Nominais

Testes
paramtricos

No se aplica o
conceito de valor
mdio; talvez se
pretenda um teste
de qui-quadrado

24

rvore de deciso

(testes paramtricos sobre valores mdios)


One-Sample
T Test

Teste de
conformidade

Paired-Samples
T Test

Amostras
emparelhadas
Testes
paramtricos
sobre valores
mdios

Comparar dois
valores mdios
Amostras
independentes

Teste de
diferenas

Amostras
independentes
Comparar mais de
dois valores mdios

Amostras
emparelhadas

Homogeneidade
de varincias

IndependentSamples T Test

Heterogeneidade
de varincias

IndependentSamples T Test

Homogeneidade
de varincias

OnewayANOVA

Heterogeneidade
de varincias

Welch & BrownForsythe Method

(Welch Method)

GLM - Repeated
Measures

Condies de aplicao
Em geram, os testes no paramtricos exigem apenas que...
 As observaes de uma amostra sejam independentes entre si.
 As observaes resultem da mediao de uma varivel mtrica
(medida ao nvel ordinal ou de escala).

Testes paramtricos e no
paramtricos
Os testes apresentados testam hipteses sobre
parmetros (valor mdio). Quando as exigncias de
aplicao destes testes paramtrico no so
respeitadas, pode-se optar pela alternativa no
paramtricas correspondente.
No entanto, os testes no paramtricos, tal como o seu
nome indica, no avaliam hipteses sobre parmetros,
pelo que as duas abordagens (paramtrica e noparamtrica) no coincidem totalmente. Os testes no
paramtricos testam, de um forma geral, igualdade de
distribuies.

rvore de deciso
(testes no-paramtricos)
No existe alternativa
no-paramtrica

Teste de
conformidade

Testes noparamtricos
equivalentes a
testes sobre
valores mdios

Nonparametric tests
2 Related samples
(Wilcoxon)

Amostras
independentes

Nonparametric tests
2 Independent samples
(Mann-Whitney)

Amostras
independentes

Nonparametric tests
K Independent samples
(Kruskal-Wallis)

Amostras
emparelhadas

Nonparametric tests
K Related samples
(Friedman)

Comparar dois
valores mdios

Teste de
diferenas
Comparar mais de
dois valores mdios

Ranking

Amostras
emparelhadas

Ranking

Os testes no paramtricos indicados no se baseiam nos


dados originalmente recolhidos mas na sua converso em
ranks (ordens).

Exemplo de ranking com empates


Dados originais

Ordenao

Ranks

Exemplo de ranking

2,8

1 ou 2

1,5

Faz-se a mdia das ordens:

2,8

1 ou 2

1,5

(1+2)/2 = 1,5

5,2

5,4

4 ou 5 ou 6

5,4

4 ou 5 ou 6

5,4

4 ou 5 ou 6

Dados originais

Ranks

7,2

5,4

As ordens ignoram o valor das


diferenas existentes entre observaes,
transformando uma varivel medida ao
nvel escalar numa varivel ordinal.

2,8

9,3

7,2

5,2

9,3

Faz-se a mdia das ordens:


(4+5+6)/3 = 5

25

Testes de hipteses
Sua aplicaes e limites
Parte 4
Desenhos experimentais
complexos

Planos experimentais factoriais


Em investigao experimental, frequente estudar o efeito
simultneo de dois ou mais factores no desempenho dos
participantes.
Por exemplo
Testar a agradabilidade provocada pelo contacto
com um estmulo tctil em que se variou diferentes
caractersticas (textura e temperatura).

Factores / modalidade / condies


Frio

Normal

Situaes multifactoriais

Quente

Hmido

Liso

Frio

Rugoso

Normal

Seco
Quente

Frio

Normal

Quente

Liso
Rugoso

Trata-se de um plano experimental bifactorial, pois manipularam-se


dois factores: o factor experimental textura tem duas modalidades
(liso e rugoso) e o factor experimental temperatura tem trs
modalidades (frio, normal e quente).
Para avaliar o efeito destas seis condies experimentais na
varivel dependente (agradabilidade sentida), dever-se- recorrer a
uma ANOVA 2x3.

Natureza dos factores


Existem dois tipos de factores experimentais:


Factores entre-sujeitos (between subjects) quando cada


sujeito experimental exposto apenas a uma modalidade de
cada factor.

Factores intra-sujeitos (within subjects) quando um sujeito


exposto a mais do que uma modalidade de um mesmo factor.

O plano experimental anterior pode estender-se a trs factores,


incluindo um factor adicional (por exemplo, a humidade do
estmulo: seco ou hmido), passando assim a uma situao
trifactorial e definindo-se 2 x 3 x 2 = 12 condies experimentais.

Plano experimental entre-sujeitos


Frio

Normal

Quente

Liso

Pedro
Joo
Maria

Tiago
Hugo
Vnia

Joaquim
Vanessa
Rui

Rugoso

Vasco
Manuel
Julieta

Paula
Jos
Mrio

Raul
Tnia
Paulo

Nesta experincia, cada sujeito exposto a uma nica condio.


Para comparar condies temos de comparar o desempenho de
sujeitos diferentes. Assim, trata-se de um plano experimental
entre-sujeitos (between subjects design).

26

Plano experimental intra-sujeitos

Plano experimental misto

Frio

Normal

Quente

Frio

Normal

Quente

Liso

Pedro
Joo
Maria

Pedro
Joo
Maria

Pedro
Joo
Maria

Liso

Pedro
Joo
Maria

Tiago
Hugo
Vnia

Joaquim
Vanessa
Rui

Rugoso

Pedro
Joo
Maria

Pedro
Joo
Maria

Pedro
Joo
Maria

Rugoso

Pedro
Joo
Maria

Tiago
Hugo
Vnia

Joaquim
Vanessa
Rui

Nesta experincia, cada sujeito exposto a todas as condies


experimentais. Para comparar condies temos de comparar o
desempenho de cada sujeito numa condio com o seu desempenho
noutra condio. Assim, trata-se de um plano experimental intrasujeitos puro (within subjects design).

Nesta experincia, cada sujeito exposto s duas modalidades do factor textura mas
apenas a uma modalidade do factor temperatura. Num dos factores (textura) o
desempenho do sujeito numa condio pode ser comparado com o seu desempenho
noutra condio; no outro factor (temperatura), o seu desempenho comparado com o
desempenho de outros sujeitos. Assim, trata-se de um plano experimental misto
(mixed design): a textura um factor intra-sujeitos e a temperatura um factor entresujeitos.

Interaco

Testes de hipteses
Sua aplicaes e limites

Em estudos com mais de um factor, o foco de interesse o


efeito da interaco entre esses factores na varivel
dependente.
Ser o efeito de um factor independente do outro factor ou o
seu efeito conjunto leva a produzir padres de resultados
inesperados?

A. ANOVA bifactorial

A anlise das interaces um ponto fundamental na


investigao psicolgica.

ANOVA bifactorial
(para grupos independentes)

ANOVA bifactorial

EXEMPLO

Plano experimental bifactorial entre-sujeitos

Objectivo: avaliar o impacto de uma formao breve nas


competncias para utilizar software estatstico.

Factores
Formao: Grupo experimental versus Grupo de controlo

Amostra: grupo de controlo (20 estudantes) e grupo experimental


(20 estudantes que receberam a formao breve). Cada grupo foi
definido de forma a garantir que metade dos estudantes tivessem
experincia no uso de software (grupo de experientes) e a outra
metade no tivesse qualquer experincia de utilizao de software
(grupo de no experientes).

Experincia: Experientes versus No-experientes


Varivel dependente
Competncias de utilizao demonstradas numa tarefa
com o software em causa
Procedimento de anlise: ANOVA 2x2

27

Fontes de variao nos dados

Fontes de variao nos dados

Porque razo duas observaes deste estudo so diferentes?


Efeitos presentes num plano bifactorial:
 Porque os sujeitos receberam formao diferente (efeito do factor
Formao).

 Efeito do factor Formao

 Porque os sujeitos tm experincias prvias diferente com software


(efeito do factor Experincia).

 Efeito do factor Experincia

 Porque o efeito da formao nos sujeitos depende da sua


experincia prvia (efeito da interaco entre Experincia e
Formao).

 Efeito da interaco Experincia x Formao (interaco de 2


ordem)

Efeitos principais
(main effects)

 Porque so pessoas diferentes (efeito residual)


Sero este efeitos realmente significativos no desempenho?

Hipteses
Factor formao

Dados
Resultados na
tarefa

Inexperientes

Experientes

H1: H diferenas entre grupo Experimental e Grupo de Controlo

Controlo
(sem
formao)

11, 12, 13, 14,


10, 12, 11, 13,
14, 12

15, 14, 15, 16,


16, 15, 16, 17,
15, 14

Factor Experincia

Experimental
(com
formao)

15, 16, 15, 17,


15, 16, 15, 17,
15, 16

15, 16 14, 19,


13, 14, 15, 16,
17, 17

H0: No h diferenas entre Grupo Experimental e Grupo de Controlo

H0: No h diferenas entre Experientes e No-experientes


H1: H diferenas entre Experientes e No-experientes
Interaco entre formao e experincia
H0: O efeito da formao independente da experincia dos participantes.
H1: O efeito da formao depende da experincia dos participantes.

Homogeneidade das varincias

A amostra total constituda por 40


observaes distribudas pelas quatro
condies experimentais.

Interaco entre factores


A vantagem das ANOVAs bifactoriais sobre as ANOVAs unifactoriais diz
respeito possibilidade de avaliar se os dois efeitos agem
independentemente um do outro sobre a varivel dependente ou se, pelo
contrrio, o efeito de um depende do efeito do outro (interaco).

Teste de homogeneidade das varincias de Levene


Perante grupos independentes, a realizao da ANOVA exige
que as varincias dos grupos em comparao sejam
semelhantes.
Como no se rejeita H0 [F(3, 36) = 2,2, p = 0,111], pode-se
assumir a homogeneidade das varincias, pelo que existem
condies para prosseguir a ANOVA.

No exemplo em anlise, ser que o efeito benfico da formao depender


do facto dos sujeitos serem Experientes ou Inexperientes?
Se no existe interaco significativa, os factores principais podem ser
interpretados isoladamente. Quando existe interaco, no se pode falar
dos efeitos principais isoladamente, uma vez que o efeito de um factor
depende do efeito do outro. Assim, a interaco deve ser sempre
interpretada em primeiro lugar, antes da interpretao dos efeitos
principais.

28

Teste das hipteses sobre valores


mdios efeito de interaco

Grfico de mdias
Interaco Formao x
Experincia
Enquanto que nos
Experientes a formao
parece ter um efeito
negligencivel, o facto dos
Inexperientes terem
frequentado o curso de
formao fez com que o seu
desempenho se aproximasse
do dos Experientes.

Efeito da interaco Formao x Experincia


Rejeita-se H0 [F(1, 36) = 15,8, p = 0,000], ou seja, o efeito da formao no
idntico para experientes e no experientes; o esclarecimento sobre o
significado desta interaco facilitado pela anlise do grfico de mdias.

Anlise grfica dos efeitos de


interaco

Anlise grfica dos efeitos de


interaco

B2
B1

A1

A2

A1

A2

A1

A2

A1

A2

A1

A2

A1

A2

A1

A2

Efeito A: n sig

Efeito A: n sig

Efeito A: sig

Efeito A: n sig

Efeito A: sig

Efeito A: n sig

Efeito A: sig

Efeito B: n sig

Efeito B: sig

Efeito B: sig

Efeito B: sig

Efeito B: n sig

Efeito B: n sig

Efeito B: sig

Interaco: n sig

Interaco: n sig

Interaco: n sig

Interaco: sig

Interaco: sig

Interaco: sig

Interaco: sig

Nota: a ausncia de interaco detecta-se facilmente atravs de um grfico de


mdias: as linhas so grosseiramente paralelas.

Identificao das diferenas


significativas numa interaco
Os diversos padres de interaco que podem surgir obrigam a
identificar que condies diferem entre si.
O SPSS no permite fazer comparaes post hoc para efeitos de
interaco, pelo que preciso recorrer a testes t de Student ou a
ANOVAs para identificar que mdias diferem umas das outras.
Nestes casos, necessrio usar sempre a correco de Bonferroni.

Nota: a presena de interaco detecta-se facilmente atravs de um grfico de


mdias: as linhas cruzam, convergem ou divergem.

Identificao das diferenas


significativas numa interaco
Grupo de experientes

Grupo de inexperientes

NOTA: para realizar esta comparao post hoc com o teste t, utilize o
comando split file para fazer a anlise separadamente em funo do nvel
de experincia.

29

Identificao das diferenas


significativas numa interaco

Teste das hipteses sobre valores


mdios efeitos principais

Como estamos a fazer dois testes, a correco de Bonferroni recomenda


usar o nvel de significncia /2 = 0,05/2 = 0,025.
Confirma-se, assim, que a formao
no exerce efeito nos experientes
(mdias: 15,3 vs 15,6; t = -0,47, df =
18, p = 0,643) mas melhora
significativamente o desempenho dos
inexperientes (mdias: 12,2 vs 15,7; t =
-7,13, df = 18, p = 0,000).

Teste das hipteses sobre valores


mdios efeitos principais

Efeito da Formao
Rejeita-se H0 [F(1, 36) = 22,3, p = 0,000], ou seja, a formao introduziu
diferenciao significativa no desempenho da tarefa. Pela tabela das
estatsticas descritivas, pode-se observar que o grupo experimental (com
formao) teve um desempenho mdio significativamente superior ao grupo
de controlo (15,65 versus 13,75).

Concluso geral

A formao parece ter efeito positivo apenas no grupo de


inexperientes, permitindo-lhes um nvel de desempenho igual
aos experientes. O seu benefcio para os Experientes no
significativo.
Efeito da Experincia
Rejeita-se H0 [F(1, 36) = 13,9, p = 0,001], ou seja, a experincia introduziu
diferenciao significativa no desempenho da tarefa. Pela tabela das
estatsticas descritivas, pode-se observar que, independentemente da
formao, o grupo experiente teve um desempenho mdio significativamente
superior ao grupo inexperiente (15,45 versus 13,95).

Dificuldades na interpretao dos


efeitos de interaco
A presena de efeitos designados por ceiling effect ou floor
effect pode tornar invivel a interpretao das interaces.
Efeito de tecto (ceiling effect) ocorre quando o desempenho
de um dos grupos se aproxima do nvel mximo possvel
permitido pela prova (ou seja, a prova demasiadamente fcil
para esse grupo).
Efeito de cho (floor effect) ocorre quando o desempenho de
um dos grupos se aproxima do nvel mnimo permitido pela
prova (a prova demasiadamente difcil para esse grupo).

Apesar dos efeitos principais serem significativos, perdem


significado perante a interaco detectada (ou seja, a
vantagem dos Experientes observa-se apenas na condio
Sem formao e a vantagem da formao observa-se
apenas para o grupo de Inexperientes).

Efeito de tecto e efeito de cho


Uma interaco significativa entre dois factores pode ser um
artefacto devido presena de efeito de tecto ou de efeito de
cho, tornando assim a investigao inconclusiva.
Por essa razo, o investigador deve garantir que a prova ou
teste que est a utilizar para avaliar o desempenho dos
sujeitos seja suficientemente discriminativa (nem muito fcil
nem muito difcil), para garantir que os nveis de desempenho
se situem a um nvel mdio (longe do tecto e longe do
cho).

30

Efeito de cho

Neste exemplo, o grupo A tem um desempenho prximo do mximo


(100%) em ambas as condies experimentais (ceiling effect).
100
95

Respostas correctas (%)

90
85
80
75
70
65
60

Com Luz

55

Sem Luz

50

Grupo A

Grupo B

A anlise estatstica vai detectar uma


interaco que, muito provavelmente,
ser um artefacto devido ao ceiling effect.
O facto do grupo A ter-se aproximado do
nvel mximo de desempenho em ambas
as condies no garante que, numa
prova mais difcil, o seu desempenho no
diferisse entre condies, assemelhandose ao do grupo B (as linhas do grfico
ficariam ento paralelas e deixaria de
haver interaco).

Testes de hipteses
Sua aplicaes e limites

B. ANOVA bifactorial
com medidas repetidas

ANOVA com medidas repetidas

Neste exemplo, o grupo B tem um desempenho prximo do nvel mnimo que


a prova permite (0%) em ambas as condies experimentais (floor effect).
60

50

Respostas correctas (%)

Efeito de tecto

40

30

20

10

Com Luz
Sem Luz

Grupo A

Grupo B

Tambm aqui a ANOVA vai detectar uma


interaco significativa que ser um
artefacto devido presena de floor
effect. O facto do grupo B ter-se
aproximado sistematicamente do nvel
mnimo de desempenho em ambas as
condies no garante que, numa prova
mais fcil, o seu desempenho permitisse
uma dissociao entre condies
experimentais, semelhante observada
no grupo A.

ANOVA com medidas repetidas


Planos bifactoriais em que ambos os factores so intra-sujeitos so
frequentes em estudos experimentais, quando o mesmo conjunto de
sujeitos exposto s diferentes condies manipuladas pelo
experimentador.
A utilizao da mesma amostra nas diferentes condies permite
reduzir a variao residual atribuvel a diferenas individuais. No
entanto, preciso cuidados metodolgicos especiais neste tipo de
estudos, para evitar efeitos de ordem no desempenho dos sujeitos
(cansao, treino, expectativas).

ANOVA com medidas repetidas

EXEMPLO

EXEMPLO

Objectivo: avaliar o efeito da fase do dia (manh e noite) e da


natureza do material (letras, nmeros, formas geomtricas) no
desempenho em provas de memria imediata.

Plano experimental intra-sujeitos


Factores (within subject):
Tipo de material: letras, nmeros, formas

Plano experimental: 30 sujeitos expostos a trs condies


experimentais durante a manh (memorizar letras, nmeros e
formas geomtricas) e s mesmas trs condies experimentais
durante o incio da noite. Regista-se o nmero de respostas certas
nas diferentes provas de memria. Foram acautelados os efeitos de
ordem.

Fase do dia: manh, noite


Varivel dependente:
Desempenho nas provas de memria imediata
Procedimento de anlise: ANOVA 3 x 2 com medidas repetidas

31

Hipteses

Dados

Factor Fase do dia


H0: No h diferenas de desempenho entre a manh e a noite
H1: Existem diferenas entre a manh e a noite
Factor Tipo de material
H0: No h diferenas de desempenho para os trs tipos de material
H1: Pelo menos um dos tipos de material levou a desempenho diferentes dos
restantes
Interaco entre factores
H0: O efeito do tipo de material independente da fase do dia do teste
H1: O efeito do tipo de material depende da fase do dia do teste

ANOVA com medidas repetidas no


SPSS

Trinta sujeitos expostos a


seis (2 x 3) condies
experimentais.
Como se trata de um plano
de estudo com medidas
repetidas, a base de dados
inclui 30 linhas (sujeitos) e 6
colunas (condies).
Os valores referem a
acuidade das respostas
dadas nas provas de
memria imediata realizadas
em cada condio.

ANOVA com medidas repetidas no


SPSS
Atribuir as seis variveis aos
factores within subjects.

necessrio atribuir um nome aos dois


factores within subjects e identificar o
nmero de nveis que eles possuem.
Aqui trata-se do factor fase_dia (com
duas modalidades: manh e noite) e
do factor material (com trs
modalidades: letras, nmeros e
formas).

Output estatsticas descritivas

manha_num
manha_let
manha_for
noite_num
noite_let
noite_for

Std. Deviation
2,918
2,845
2,591
2,213
2,568
2,236

Solicitar um grfico de mdias,


para facilitar a interpretao de
eventuais interaces.

Output esfericidade
Mauchly's Test of Sphericityb

Descriptive Statistics
Mean
7,37
6,10
4,10
7,00
4,40
3,97

Options

Measure: MEASURE_1

N
30
30
30
30
30
30

Estatsticas descritivas:
acuidade no desempenho
em cada prova

Epsilon
Within Subjects Effect Mauchly's W
fase_dia
1,000
material
,203
fase_dia * material
,778

Approx.
Chi-Square
,000
44,687
7,020

df

Sig.
0
2
2

.
,000
,030

Greenhous
e-Geisser
1,000
,556
,818

Huynh-Feldt
1,000
,563
,861

Lower-bound
1,000
,500
,500

Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is
proportional to an identity matrix.
a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in
the Tests of Within-Subjects Effects table.
b.
Design: Intercept
Within Subjects Design: fase_dia+material+fase_dia*material

Rejeita-se a hiptese de esfericidade nos casos em que ela tem de ser testada
(ou seja, para o factor material, que tem 3 nveis, e na interaco que tem
2x3 nveis). Por haver problemas de esfericidade, preciso proceder s
devidas correces na ANOVA (correco de Greenhouse-Geisser).

32

Output teste das hipteses

Output teste das hipteses


Tests of Within-Subjects Effects

Como se referiu anteriormente, nos planos bifactoriais deve-se


comear sempre por verificar se a interaco significativa antes de
analisar os efeitos principais

Measure: MEASURE_1
Source
fase_dia

Error(fase_dia)

Isto porque, caso a interaco seja significativa, arriscado falar do


efeito isolado de um factor sem que se tenha, obrigatoriamente, de
referir o outro factor (uma vez que os dois factores interagem na
influncia que tm sobre a varivel dependente).

material

Error(material)

Apenas quando a interaco no significativa que o efeito isolado


de cada factor pode ser referido, independentemente do outro factor
da experincia.

Output teste das hipteses


(interaco)

fase_dia * material

Error(fase_dia*material)

Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound

Type III Sum


of Squares
24,200
24,200
24,200
24,200
20,133
20,133
20,133
20,133
302,811
302,811
302,811
302,811
519,856
519,856
519,856
519,856
21,433
21,433
21,433
21,433
45,233
45,233
45,233
45,233

df
1
1,000
1,000
1,000
29
29,000
29,000
29,000
2
1,113
1,125
1,000
58
32,271
32,636
29,000
2
1,637
1,722
1,000
58
47,472
49,928
29,000

Mean Square
24,200
24,200
24,200
24,200
,694
,694
,694
,694
151,406
272,119
269,075
302,811
8,963
16,109
15,929
17,926
10,717
13,093
12,449
21,433
,780
,953
,906
1,560

F
34,858
34,858
34,858
34,858

Sig.
,000
,000
,000
,000

16,892
16,892
16,892
16,892

,000
,000
,000
,000

13,741
13,741
13,741
13,741

,000
,000
,000
,001

A interaco entre os
dois factores
significativa (correco
de GreenhouseGeisser).

Output grfico de mdias


Interaco entre material e
fase do dia

Efeito da interaco entre factores


Rejeita-se H0 [F(1.6, 47.5) = 13,7, p = 0,000], ou seja, as diferenas
de desempenho nas trs provas no so iguais de manh e
noite

A capacidade de memria
para nmeros e para formas
parece semelhante nos dois
momentos de avaliao; a
memria para letras parece
ser mais eficaz durante a
manh. Para verificar a
significncia desta leitura,
preciso proceder a anlises
post hoc.

ou seja, as diferenas entre o desempenho matinal e nocturno


no igual nas trs provas.
ou seja, o efeito do tipo de material depende da altura do dia em
que a prova realizada.

Identificao das diferenas significativas


na interaco (anlise post hoc)
A comparao post hoc entre as mdias do grfico de interaco poder ser
feita recorrendo ao teste t para amostras emparelhadas (com correco de
Bonferroni, utilizando-se o valor /3 = 0.05/3 = 0.0167, pois realizado um
conjunto de trs testes).

Output teste das hipteses (efeitos


principais)
Efeito do tipo de material
Rejeita-se H0 [F(1.1, 32.3) = 16,9, p = 0,000], ou seja, o desempenho de pelo
menos uma das provas diferente dos restantes.

Paired Samples Test


Paired Differences

Pair 1
Pair 2
Pair 3

manha_num - noite_num
manha_let - noite_let
manha_for - noite_for

Mean
,367
1,700
,133

Std. Deviation
1,608
1,119
,819

Std. Error
Mean
,294
,204
,150

95% Confidence
Interval of the
Difference
Lower
Upper
-,234
,967
1,282
2,118
-,173
,439

t
1,249
8,323
,891

df
29
29
29

Sig. (2-tailed)
,222
,000
,380

A anlise post hoc permite afirmar que apenas na prova de memria para
letras existe diferena significativa entre manh e noite (t = 8,3, gl = 29, p =
0,000).

Como este factor tem trs


modalidades, preciso proceder a
anlises post hoc para identificar
que modalidades so diferentes
entre si (apenas sabemos que pelo
menos uma difere das restantes).

33

Output anlise post hoc

Efeito da fase do dia

Pairwise Comparisons
Measure: MEASURE_1

(I) material
1
2
3

(J) material
2
3
1
3
1
2

Mean
Difference
(I-J)
Std. Error
1,933*
,659
3,150*
,656
-1,933*
,659
1,217*
,179
-3,150*
,656
-1,217*
,179

Output teste das hipteses (efeitos


principais)

Sig.
,019
,000
,019
,000
,000
,000

95% Confidence Interval for


a
Difference
Lower Bound Upper Bound
,260
3,607
1,483
4,817
-3,607
-,260
,762
1,671
-4,817
-1,483
-1,671
-,762

Anlise post hoc atravs


do mtodo de Bonferroni

Rejeita-se H0 [F(1, 29) = 34,9, p = 0,000], ou seja, o desempenho geral nas


provas de memria depende da fase do dia em que foi avaliado.
A anlise das mdias indica que o
desempenho geral nas provas de
memria durante a manh superior ao
desempenho durante a noite (neste
caso, como o factor fase do dia apenas
tem duas modalidades, no preciso
proceder a anlises post hoc); no
entanto, a anlise da interaco revelounos que essa diferena deve-se
sobretudo prova de letras..

Based on estimated marginal means


*. The mean difference is significant at the ,05 level.
a. Adjustment for multiple comparisons: Bonferroni.

Comparao entre materiais


Observam-se diferenas significativas entre o desempenho nas trs provas, pelo que
se pode afirmar que, independentemente da hora do dia, a capacidade de memria
para nmeros sempre melhor do que a capacidade de memria para letras e ambas
so melhores do que a capacidade de memria para formas geomtricas.

Concluso geral

Testes de hipteses
Sua aplicaes e limites

Embora o desempenho de provas de memria seja


sistematicamente melhor quando se trabalha com nmeros e
pior quando se trabalha com formas geomtricas, o
desempenho em provas de memria que utilizem letras
parece depender da altura do dia em que a prova realizada.

ANOVA com plano experimental misto

C. ANOVA mista

ANOVA com plano experimental misto

EXEMPLO

Plano experimental misto

Objectivo: avaliar o efeito de uma sesso de relaxamento na presso


arterial sistlica.

Factores:
Tempo: antes da sesso versus depois da sesso
(factor within subjects)

Plano experimental: Aps uma prova de esforo (destinada a aumentar


a presso arterial), 30 sujeitos foram aleatoriamente distribudos por dois
grupos: um grupo realizou uma sesso de relaxamento activo com
durao de 10 minutos (grupo experimental) e o outro grupo ficou em
repouso (grupo de controlo). Mediu-se a presso arterial antes e depois
de cada sesso. Pretende-se avaliar se a sesso de relaxamento activo
teve mais efeito na reduo da tenso arterial do que sesso de
repouso.

Tipo de sesso: relaxamento activo versus repouso


(factor between subjects)
Varivel dependente:
Presso arterial sistlica
Procedimento de anlise: ANOVA com medidas repetidas

34

Hipteses

Dados

Factor Tempo
H0: No h diferenas na presso arterial antes e depois das sesses
H1: H diferenas na presso arterial antes e depois das sesses
Factor Tipo de Relaxamento
H0: No h diferenas entre Relaxamento Activo e Repouso
H1: H diferenas entre Relaxamento Activo e Repouso

Trinta sujeitos distribudos por duas


condies experimentais
Os valores referem presso arterial
sistlica (PA) antes e depois do
tratamento (sesso de relaxamento /
repouso)

Esta a hiptese que interessa explorar nesta


investigao, pois permite averiguar se o tipo de
relaxamento afecta a descida da presso arterial.

Interaco entre factores

H0: A diferena na presso antes e depois independente do tipo de


relaxamento
H1: A diferena na presso antes e depois depende do tipo de relaxamento

Homogeneidade de varincias

Esfericidade

Levene's Test of Equality of Error Variancesa


F
PA_antes
PA_depois

df1
,119
,285

df2
1
1

28
28

Mauchly's Test of Sphericityb

Sig.
,732
,597

Measure: MEASURE_1
Epsilon

Tests the null hypothesis that the error variance of the


dependent variable is equal across groups.
a.
Design: Intercept+Sesso
Within Subjects Design: tempo

Within Subjects Effect Mauchly's W


tempo
1,000

Como nesta anlise existe um factor entre-sujeitos, necessrio verificar


se a varincia das variveis em estudo (PA_antes e PA_depois) igual
nos dois grupos em comparao.
Verifica-se existir homogeneidade das varincias para as duas variveis
(para ambas a variveis, p > 0,050), pelo que se pode prosseguir a
ANOVA.

Teste das hipteses factor within

tempo * Sesso

Error(tempo)

Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound

df
1
1,000
1,000
1,000
1
1,000
1,000
1,000
28
28,000
28,000
28,000

Sig.
0

Greenhous
e-Geisser
1,000

Huynh-Feldt
1,000

Lower-bound
1,000

b.
Design: Intercept+Sesso
Within Subjects Design: tempo

Teste da esfericidade
Como o factor within tem apenas dois nveis (antes e depois) no faz
sentido testar a esfericidade da matriz das covarincias.

Teste das hipteses factor between

Tests of Within-Subjects Effects

Tests of Between-Subjects Effects

Measure: MEASURE_1
Type III Sum
of Squares
390,150
390,150
390,150
390,150
30,817
30,817
30,817
30,817
104,533
104,533
104,533
104,533

df

Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is
proportional to an identity matrix.
a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in
the Tests of Within-Subjects Effects table.

Homogeneidade das varincias

Source
tempo

Approx.
Chi-Square
,000

Mean Square
390,150
390,150
390,150
390,150
30,817
30,817
30,817
30,817
3,733
3,733
3,733
3,733

F
104,504
104,504
104,504
104,504
8,254
8,254
8,254
8,254

Sig.
,000
,000
,000
,000
,008
,008
,008
,008

A significncia do
efeito do facto within
(Tempo) l-se nesta
linha pois no se
coloca a exigncia da
esfericidade.

Efeito do Tempo (efeito within)


Como seria de esperar (pois a presso arterial dever baixar naturalmente 10
minutos aps a concluso do exerccio), rejeita-se H0 [F(1, 28) = 104,5, p = 0,000],
ou seja, h diferenas na presso arterial antes e depois das sesses.

Measure: MEASURE_1
Transformed Variable: Average
Source
Intercept
Sesso
Error

Type III Sum


of Squares
596206,017
170,017
12691,467

df
1
1
28

Mean Square
596206,017
170,017
453,267

F
1315,354
,375

Sig.
,000
,545

Efeito da Sesso (efeito between)


No se rejeita H0 [F(1, 28) = 0,4, p = 0,545], ou seja, no existe diferena
entre sesses.
Ateno: como se trata de um factor between, o SPSS apresenta o teste
correspondente numa tabela diferente da anterior.

35

Teste das hipteses - interaco

Grfico de mdias

Tests of Within-Subjects Effects

Interaco Tempo x
Sesso

Measure: MEASURE_1
Source
tempo

tempo * Sesso

Error(tempo)

Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound
Sphericity Assumed
Greenhouse-Geisser
Huynh-Feldt
Lower-bound

Type III Sum


of Squares
390,150
390,150
390,150
390,150
30,817
30,817
30,817
30,817
104,533
104,533
104,533
104,533

df
1
1,000
1,000
1,000
1
1,000
1,000
1,000
28
28,000
28,000
28,000

Mean Square
390,150
390,150
390,150
390,150
30,817
30,817
30,817
30,817
3,733
3,733
3,733
3,733

F
104,504
104,504
104,504
104,504
8,254
8,254
8,254
8,254

Sig.
,000
,000
,000
,000
,008
,008
,008
,008

A diminuio da tenso
entre o momento antes e
depois (efeito do Tempo)
distinta nos dois grupos:
tal diminuio mais
marcada no grupo que
seguiu a sesso de
relaxamento.

Efeito da interaco Tempo x Sesso (efeito misto)


Existe interaco entre Tempo e Sesso [F(1, 28) = 8,3, p = 0,008], ou seja, a
reduo da presso observada entre o momento antes e depois diferente no
grupo que fez relaxamento e no grupo de repouso.

Identificao das diferenas


significativas na interaco

Identificao das diferenas


significativas na interaco
Duas alternativas de anlise

Tambm aqui poder ser necessrio fazer comparaes post hoc para
identificar que mdias diferem umas das outras.
O teste a escolher depende se se est trabalhar com o factor intra-sujeitos ou
o factor entre-sujeitos
necessrio usar sempre a correco de Bonferroni.

Fazer anlise do factor intra-sujeitos


para cada grupo definido pelo factor
entre-sujeitos.

Identificao das diferenas


significativas na interaco
Grupo Sesso = repouso

Fazer a comparao entre os grupos


definido pelo factor entre-sujeitos para
cada um dos momentos definidos pelo
factor intra-sujeitos.

Identificao das diferenas


significativas na interaco
Verifica-se que o efeito entre o incio e o fim da sesso significativo para os
dois tipos de sesso (repouso: t = 9,49, df = 14, p = 0,000; relaxamento: t =
7,10, df = 14, p = 0,000). No entanto, a diminuio dos nveis mdios de
presso maior nas sesses de relaxamento (diferena entre mdias = 6,53)
do que nas sesses de repouso (diferena entre mdias = 3,67).

Grupo Sesso = relaxamento


Uma sesso de relaxamento activo parece ter um efeito mais marcado na
reduo da presso arterial aps exerccio do que uma sesso de repouso
simples.

36

Concluso

Testes de hipteses
Sua aplicaes e limites

Uma sesso de relaxamento activo parece ter um


efeito mais marcado na reduo da presso arterial
aps exerccio do que uma sesso de repouso
simples.

ANOVAs mais complexas

D. Situaes mais
complexas

Anlise bifactorial com mais de duas


modalidades
30

a) Estudos com dois factores, mas onde cada factor tem mais de duas
modalidades (por exemplo, ANOVA 3 x 4)
b) Estudos com mais do que dois factores anlise de varincia
multifactorial (por exemplo, ANOVA 2 x 3 x 2).

Experientes
28

Inexperientes

26

Velocidade de leitura

Podem surgir estudos mais complexos, dependendo do nmero de


factores envolvidos e do nmero de modalidades presentes em cada
factor:

ANOVA 3 x 2
O efeito da iluminao
diferente consoante o nvel
de experincia do sujeito:
ser leitor experiente traz
vantagens
para
a
velocidade de leitura em
condies de penumbra.

24
22
20
18
16
14
12
10

Luz

Penumbra

Sombra

Condies de leitura

ANOVA 3 x 4

Anlise multifactorial

20
19
18

O aumento do nmero de
modalidades de cada factor
dificulta a interpretao da
interaco.

ESS baixo
ESS mdio
ESS alto

17
16

Quanto existem trs factores em jogo (A, B e C), para alm dos factores
principais (main effects) e da interaco de 2 ordem (interaco entre pares
de factores: AxB, AxC e BxC), existe ainda a interaco de 3 ordem entre
os trs factores (AxBxC).

15

A anlise post-hoc desta interaco


implica o recurso ANOVA
unifactorial e ao mtodo de Tukey
(para comparar, por exemplo, o
desempenho dos trs grupos ESS

14
13
12
11
10
1 ano

2 ano

3 ano

4 ano

A dificuldade em interpretar os efeitos de interaco aumenta rapidamente


assim que se passa para anlises com mais do que trs factores.

em cada ano de escolaridade).

37

Anlise trifactorial

Interaco de 3 ordem

Considere-se que se pretende avaliar a presena de msica na sesso de


relaxamento (com msica ou sem msica) tem efeito na reduo da presso
sistlica (antes versus depois), procurando averiguar se esse feito
diferente entre homens e mulheres.
Temos uma ANOVA 2 x 2 x 2, com os seguintes factores:
Sexo (masculino vs feminino)
Momento (antes vs depois)
Condio experimental (com msica vs sem msica)

Testes de hipteses
Sua aplicaes e limites

A reduo da presso sistlica (antes versus depois) diferente entre sexos


quando o treino feito sem msica (as mulheres relaxam mais) mas igual
nos dois sexos quando o treino feito com msica.

ANCOVA Analysis of Covariance


Covariveis so variveis de natureza quantitativa utilizadas em
ANOVA para reduzir a variao devida ao erro residual,
aumentando assim a potncia do teste para detectar diferenas.

E. ANCOVA

ANCOVA Analysis of Covariance


EXEMPLO
Objectivo: avaliar o rudo ambiental na compreenso de um texto.

No estudo sobre o efeito do rudo na compreenso de um texto


podemos considerar que o resultado numa prova de Vocabulrio
(medida da vocabulrio que o sujeito possui) est correlacionado
com a compreenso do texto, pelo que pode ser usado para tornar
o teste mais sensvel (mais potente) pois controla-se o efeito dessa
varivel estranha no efeito que se pretende avaliar (efeito das
condies de rudo na compreenso de um texto).

ANCOVA Analysis of Covariance


ANOVA (sem covarivel)
ANOVA
Acertos

Amostra: trs grupos de 4 crianas cada foram expostos a trs


condies ambientais distintas (silncio vs msica de fundo vs
rudo de fundo) ouviram a leitura de um texto. No final, foram feitas
perguntas para avaliar a compreenso do texto escutado.
Considerou-se que o conhecimento de vocabulrio se relaciona
com a compreenso de textos, pelo que se pretendeu usar essa
varivel para controlar essa fonte de variao e tornar o estudo
mais sensvel s diferenas entre as condies experimentais.

Between Groups
W ithin Groups
Total

Sum of
Squares
34,667
10,000
44,667

df
2
9
11

Mean Square
17,333
1,111

F
15,600

Sig.
,001

Rejeita-se H0 [F(2, 9) = 15,6, p = 0,001]:


existem diferenas entre condies de
rudo.

38

ANCOVA Analysis of Covariance


ANCOVA (usar Vocabulrio como covarivel)
Tests of Between-Subjects Effects
Dependent Variable: Acertos
Source
Corrected Model
Intercept
Vocab
Condio
Error
Total
Corrected Total

Type III Sum


of Squares
40,113a
,164
5,447
26,350
4,553
430,000
44,667

df
3
1
1
2
8
12
11

Mean Square
13,371
,164
5,447
13,175
,569

F
23,493
,289
9,570
23,149

Sig.
,000
,606
,015
,000

ANCOVA: Condio de aplicao


Homogeneidade de declives: a ANCOVA exige que a relao
entre a covarivel e a varivel dependente seja semelhante nos
trs grupos.
Tests of Between-Subjects Effects

Rejeita-se H0
[F(2, 8) = 23,1, p = 0,000].

a. R Squared = ,898 (Adjusted R Squared = ,860)

A varincia do erro diminui de 1,11 para 0,57, devido ao controlo da variao


atribuvel s diferenas individuais no vocabulrio dos sujeitos.
O efeito da covarivel significativo [F(1, 8) = 9,6, p = 0,015], confirmando a
existncia de associao entre o nvel de vocabulrio e a varivel dependente.

ANCOVA Analysis of Covariance

Dependent Variable: Acertos


Source
Corrected Model
Intercept
Condio
Vocab
Condio * Vocab
Error
Total
Corrected Total

Type III Sum


of Squares
40,361a
,321
,824
5,469
,248
4,305
430,000
44,667

df
5
1
2
1
2
6
12
11

Mean Square
8,072
,321
,412
5,469
,124
,718

F
11,250
,447
,574
7,622
,173

Sig.
,005
,529
,591
,033
,845

Para
testar
este
pressuposto, preciso
indicar ao SPSS para
testar a interaco entre
a VI e a covarivel.

a. R Squared = ,904 (Adjusted R Squared = ,823)

A estatstica F permite afirmar que o efeito da covarivel semelhante


nos trs grupos [F(2, 6) = 0,2, p = 0,845], pelo que se pode assumir a
homogeneidade dos declives.

Testes de hipteses
Sua aplicaes e limites

Se a introduo da covarivel tiver o efeito de diminuir a estatstica


F para testar a diferena entre grupos ento fica-se a saber que a
covarivel no s correlaciona como a VD mas tambm apresenta
nveis diferentes na VI (por exemplo, os sujeitos colocados nos
diferentes grupos teriam, partida, diferenas no nvel de
vocabulrio).

Parte 5
Medidas de magnitude
do efeito

Nesta situao, entrar com a covarivel na anlise no s controla


varincia residual indesejvel como tambm exclui varincia
atribuvel VI. Desta forma, fica-se a conhecer o efeito da VI sobre
a VD livre da influncia da covarivel.

Um problema

Um problema

Um investigador pretende avaliar se um medicamento novo tem


efeito na reduo das dores de cabea.
Para isso, realiza um ensaio clnico duplamente cego com dois
grupos de 7 pessoas cada um, atribuindo a um grupo o
medicamento novo e ao outro grupo um medicamento tradicional,
conhecido por ser eficaz no tratamento das dores de cabea.
Regista a intensidade dos sintomas observados no final do
tratamento, realiza um teste estatstico para comparar as duas
mdias e chega a uma significncia p = 0, 096.

Que concluir?
Apesar de no significativa, a diferena entre as duas mdias parece
ser reveladora de uma maior eficcia do medicamento tradicional.

39

Dvidas perante um resultado


estatisticamente no significativo

Perante um resultado no significativo, o investigador fica com a


seguinte dvida:
 Ou o novo medicamento pode ser realmente to eficaz quanto o
tradicional;
 Ou pode haver diferena entre os dois medicamentos mas,
como a amostra pequena, o procedimento estatstico utilizado
no tem poder suficiente para detectar a diferena (estar-se-ia a
cometer um erro de tipo II).

Outro problema
Um investigador pretende comparar as diferenas entre sexos em
diversas aptides cognitivas.
Para isso, aplica uma bateria de avaliao de aptides a uma
amostra de 1500 rapazes e de 1500 raparigas.
Ao realizar um teste estatstico para comparar as mdias destes dois
grupos, chega a concluso que existem diferenas significativas para
todas as aptides em causa.
Que concluir?

Em resumo...
A capacidade que um teste estatstico possui para detectar
diferenas depende da dimenso da amostra. Diferenas grandes
podem no ser detectadas em amostras pequenas; diferenas
mnimas podem ser detectadas em amostras grandes.
Estes problemas tm posto em causa a real utilidade dos testes de
significncia *.
Por esta razo, recomenda-se que, para alm da informao sobre a
significncia da diferena, se indique informao sobre a
magnitude da diferena.
* Para mais informao, consultar:
http://www.apa.org/monitor/may99/task.html; http://www.loyola.edu/library/ref/articles/Wilkinson.pdf

O problema dos resultados no


significativos

A Estatstica conservadora e a rejeio de H0 exige evidncias


empricas fortes que uma amostra pequena dificilmente poder
fornecer.
Ser que a diferena existe e s no foi considerada significativa
devido dimenso da amostra?
Ser que aumentando a dimenso da amostra se obteria um
resultado estatisticamente significativo?

O problema dos resultados


estatisticamente significativos
1) Existem realmente diferenas entre rapazes e raparigas para
todas as aptides estudadas (dificilmente as mdias destes dois
grupos seriam exactamente iguais).
2) Embora estatisticamente significativas, as diferenas reais entre
as mdias entre mdias so mnimas, parecendo negligenciveis
do ponto de vista psicolgico.
Na verdade, quanto maior a amostra, mais facilmente uma
pequena diferena, sem impacto psicolgico substancial,
considerada estatisticamente significativa. A significncia
estatstica, neste caso, pode no coincidir com a significncia
psicolgica do resultado.

Magnitude do efeito
To importante quanto saber se uma diferena significativa saber
qual a magnitude dessa diferena.
Uma diferena pode ser significativa mas ter uma magnitude
diminuta (pode acontecer quando trabalhamos com amostras
grandes) ou, pelo contrrio, a diferena pode no ser significativa
mas ter uma magnitude grande (pode acontecer quando se trabalha
com amostras pequenas).
Esta questo torna-se particularmente relevante quando se trata de
avaliar efeitos de intervenes (clnicos ou educacionais).
Assim, convm sempre apresentar uma medida da magnitude do
efeito quando se apresenta o valor p de um teste de hipteses.

40

Magnitude do efeito

Medidas da magnitude do efeito

Medidas de magnitude do efeito (effect size)


So medidas padronizadas (independentes das unidades de
expresso da varivel em estudo e da dimenso da amostra) e
que permitem avaliar a magnitude da diferena (por exemplo, a
magnitude do efeito introduzido por um tratamento experimental)
ou da associao entre variveis.

Diferena padronizada entre mdias

Existem diferentes medidas da magnitude do efeito,


adequadas a cada situao; algumas estatsticas descritivas
podem ser usadas como medidas da magnitude do efeito
(coeficiente de correlao, odds ratio).
Medidas de magnitude do efeito:
Diferena padronizada entre mdias (adequado
comparao entre grupos)
Odds ratio (adequado anlise da associao entre variveis
nominais)
Coeficiente de correlao (adequado anlise da associao
entre variveis contnuas)

Medidas de magnitude do efeito


d

r2

2.0

.707

.500

1.9

.689

.474

1.8

.669

.448

1.7

.648

.419

1.6

.625

.390

1.5

.600

.360

1.4

.573

.329

1.3

.545

.297

1.2

.514

1.1

.482

.232

1.0

.447

.200

0.9

.410

.168

LARGE

0.8

.371

.138

0.6

.287

.083

MEDIUM

0.5

.243

.059

0.4

.196

.038

0.3

.148

.022

0.2

.100

.010

0.1

.050

.002

0.0

.000

.000

Efeito

d de Cohen (exprime a diferena entre duas mdias em termos de


unidades padronizadas)

d=
Clculo directo a partir dos dados amostrais

2r
1 r

Clculo directo a partir da correlao

0.7

SMALL

Clculo directo a partir da estatstica t

Medidas de magnitude do efeito


Efeito

LARGE

MEDIUM

SMALL

Percentile Standing

Percent of Nonoverlap

2.0

97.7

81.1%

1.9

97.1

79.4%

1.8

96.4

77.4%

1.7

95.5

75.4%

1.6

94.5

73.1%

1.5

93.3

70.7%

1.4

91.9

68.1%

1.3

90

65.3%

1.2

88

62.2%

1.1

86

58.9%

1.0

84

55.4%

0.9

82

51.6%

0.8

79

47.4%

0.7

76

43.0%

0.6

73

38.2%

0.5

69

33.0%

0.4

66

27.4%

0.3

62

21.3%

0.2

58

14.7%

0.1

54

7.7%

0.0

50

0%

.330

.265

.109

Relao entre d (medida


da magnitude do efeito
baseada em diferenas
padronizadas entre
mdias) e r (medida da
magnitude do efeito
baseada na percentagem
de varincia explicada).

Interpretao de d de Cohen
O sinal de d depende da forma como se calculou a diferena
entre as mdias, pelo que no tem significado especial.

Se d = 0.8, a mdia do
grupo experimental
localiza-se no eprcentil 79
do grupo de controlo.

O valor de d no est limitado, mas, sendo uma medida


padronizada, raramente vai acima de 2 (significando que as
mdias difeririam entre si em mais do que dois desviospadro). O valor 0 significa que as mdias dos dois grupos
coincidem.

41

Interpretao de d de Cohen

Interpretao de d de Cohen

O valor de d pode ser interpretado em termos da


sobreposio das duas curvas que esto a ser
apresentadas. Por exemplo, sabe-se que um valor de d =
0,3 indica que cerca de 80% das distribuies de cada grupo
se sobrepem (este clculo recorre distribuio normal),
indicando assim as diferenas os dois grupos so de
pequena magnitude.

Cohen (1988) sugere as seguintes linhas orientadoras para


interpretar o valor de d:
Efeito reduzido = 0.2
Efeito mdio = 0.5
Efeito grande = 0.8

Sobreposio entre as distribuies


dos resultados de dois grupos que se
diferenciam pouco

Exemplo

(retoma-se o exemplo do incio da aula)

Eta square
2 (exprime o efeito da varivel independente na
dependente e corresponde proporo da varincia
varivel dependente que atribuda ao efeito da
independente) adequado para medir a magnitude do
factor na One-way ANOVA.

Apesar de estarmos perante um resultado no significativo (p >


0,050), a magnitude do efeito do tratamento grande (d = 0,967),
o que sugere que a diferena entre este dois grupos merece ser
explorada recolhendo informao adicional.

Eta square
A interpretao do valor 2 deve ser feita em termos
percentuais, uma vez que ele equivalente ao coeficiente
de determinao da
regresso (R2): corresponde
percentagem da variao total da VD que atribuvel s
modalidades da VI.

varivel
total da
varivel
efeito do

Clculo a partir da tabela ANOVA

f de Cohen
Cohen sugere uma medida alternativa para avaliar o efeito
numa ANOVA, baseada no eta square:

Para interpretao de f, Cohen (1988) indica as seguintes


linhas orientadoras:
Efeito reduzido = 0.10
Efeito mdio = 0.25
Efeito grande = 0.40

42

Exemplo

Exemplo

Considere-se que num estudo sobre o efeito do lcool nos


tempos de reaco se avaliou o desempenho de 60 estudantes
em trs condies experimentais: Controlo (os sujeitos que no
consumiram lcool), Nvel 1 (aps consumirem lcool, os sujeitos
ficaram com uma alcoolmia de 0,5) e Nvel 2 (aps consumirem
lcool, os sujeitos ficaram com uma alcoolmia de 1,5).
Pretende-se avaliar se h diferenas entre condies nos tempos
de reaco simples (deteco de um estmulo luminoso).

Exemplo
Na fase de anlise post hoc, podemos querer conhecer a magnitude dos
efeitos introduzidos por nveis especficos da varivel independente. Neste
caso, uma vez que se trata de comparao entre pares de mdias, pode-se
recorrer a uma adaptao do d de Cohen, usando como medida da
varincia o valor MSWithin (retirado da tabela ANOVA).

Encontra-se um feito significativo da


condio experimental no tempo de
reaco [F (2, 57) = 3,8, p = 0,029] o
lcool parece afectar o tempo de reaco.
2 = SS Between / SS Total = 0,042 / 0,357 = 0,118.
Este valor indica que apenas 11,8% da varincia dos tempos de reaco se
pode atribuir ao efeito das condies experimentais (variar a alcoolmia entre
0 e 1,5 g/l); trata-se de um efeito grande, uma vez que f = 0,37.

Exemplo
A anlise post hoc (teste de Tukey) indica que a diferena entre as condies
Alcoolmia 0,5 (mdia = 0,2537) e Alcoolmia 1,5 (mdia = 0,2427) no
significativa. Qual ser o valor da magnitude desta diferena?

Trata-se de um efeito reduzido (d < 0,20).

Aplicaes das medidas da magnitude


do efeito
Avaliar a magnitude da diferena entre mdias ou a
magnitude da associao entre variveis, de forma a decidir
se um efeito psicologicamente significativo ou no, indo
assim alm da questo da significncia estatstica.
Possuir medidas da magnitude do efeito que permitam
comparar resultados obtidos em estudos diferentes ( um
instrumento fundamental em meta-anlise).
Permitir determinar a dimenso da amostra que
necessitamos para garantir que uma determinada diferena
seja estatisticamente detectada (com um nvel de confiana
determinado partida).

Utilizao da magnitude do efeito para


determinar a dimenso da amostra
possvel decidirmos quantas observaes so necessrias
para detectar uma determinada magnitude de diferena,
considerando os nveis de erro que estamos dispostos a correr
( e ) .
Por exemplo, se num estudo de diferenas entre mdias
quisermos que um efeito pequeno (d = 0.2) seja detectado ao
nvel de significncia = 0,05 e com a potncia 1- = 0,80,
ento cada amostra necessita ter pelo menos 383 indivduos.
Estes clculos podem ser facilmente efectuados em pginas
web como:
http://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

43

Utilizao da magnitude do efeito para


determinar a dimenso da amostra
O programa G-Power permite explorar as relaes entre a
magnitude do efeito que se pretende detectar, a dimenso das
amostras necessrias e os nveis de erro e .
Este procedimento pode ser aplicado relativamente a
diferentes tcnicas estatsticas (teste t, ANOVA, correlao,
regresso, teste do qui-quadrado, etc).

Onde obter GPower (freeware):


http://www.psycho.uniduesseldorf.de/abteilungen/aap/gpower3/download-and-register

Exemplo de output do GPower3

G-Power
O programa G-Power permite fazer diferentes tipos de anlise:
 Determinar qual a dimenso da amostra necessria para que um teste
com potncia especificada (por exemplo, 1 - = 0,80) detecte uma
magnitude de diferena entre mdias especfica (por exemplo, d = 0,50)
ao nvel de significncia (por exemplo, 5%).
 Determinar qual a potncia de um teste que utilize N observaes para
detectar uma magnitude de diferena entre mdias de d = 0,50 ao nvel
de significncia = 5%.
 Determinar qual a magnitude da diferena que se espera que um teste
com N observaes detecte com potncia especificada (1 - = 0,80) e
nvel de significncia = 5%.
Etc

Testes de hipteses
Sua aplicaes e limites

A potncia para um teste t


detectar uma diferena de
magnitude mdia (d = 0,50)
ao nvel de significncia =
0,05 muito baixa com
amostras pequenas. Mesmo
com duas amostras de
dimenso usual (N = 30 +
30 = 60), a probabilidade de
aceitar H0 quando esta
hiptese falsa superior a
50% (1 - = 0,48).

Mtodos Avanados de
Investigao I

Associao entre
variveis nominais

Associao entre variveis nominais


Um investigador pretende avaliar se, numa amostra de
adolescentes, existe associao entre o consumo de tabaco
(consumidor ou no consumidor) e o sexo do adolescente.

A. Associao entre
duas variveis nominais

Recolheu informao sobre 200 adolescentes (120 raparigas e 80


rapazes) e construiu um tabela de contingncia.
Fuma

No
fuma

Rapaz

30

50

Total
80

Rapariga

20

100

120

Total

50

150

200

Existir associao entre o sexo do adolescente e o consumo de


tabaco?

44

Independncia entre duas variveis


nominais

Representao grfica da situao de


independncia
Rapaz

Independncia entre variveis nominais


Duas variveis so independentes se a pertena a uma
categoria de uma varivel no afectar a probabilidade de
pertencer categoria de outra varivel.

(De igual modo, a distribuio do sexo condicionada ao fumar ser igual


para fumadores e no fumadores).

Representao grfica da situao de


associao
Rapariga

Amostra total

20%

20%

Se as duas variveis forem independentes, a distribuio do fumar


condicionada ao sexo ser idntica para rapazes e raparigas. Assim, o
facto de ser rapaz (ou de ser rapariga) no interfere na probabilidade de
ser fumador.

Rapaz

Rapariga

20%

Fumador

Fumador

Fumador

No fumador

No fumador

No fumador

80%

80%

80%

A percentagem de fumadores em cada grupo (rapazes e raparigas)


idntica percentagem de fumadores na amostra total.
Esta distribuio significa que as duas variveis (sexo e fumar) so
independentes entre si.

Independncia versus Associao


Associao entre
Sexo e Fum ar

Relao de independncia entre


Sexo e Fum ar

Amostra total

8%
20%

50%

50%

40%

40%

Fumador

No fumador

No fumador

Fumador
No fumador

62%

92%

80%

A percentagem de fumadores diferente em cada um dos grupos: h mais


rapazes a fumar do que no geral (38% contra 20%) e h menos raparigas a
fumar do que no geral (8% contra 20%).
Este resultado significa que as duas variveis esto associadas: o facto de ser
rapaz aumenta a probabilidade de se ser fumador.

Porqu um teste estatstico?


A necessidade de um teste estatstico para avaliar a situao de
independncia surge porque se colocam diversas perguntas:
 Corresponder a distribuio observada corresponde situao
de independncia?

30%

20%

20%

20%

20%
10%

Fumadores (%)

Fumador

Fumadores (%)

38%

38%

30%

20%

20%
8%

10%
0%

0%
Rapazes

Raparigas

Rapazes

Total

Quando as variveis so
independentes, a proporo de
fumadores em cada grupo
semelhante proporo de
fumadores na amostra total.

Raparigas

Total

Quando as variveis esto


associadas, pelo menos um dos
grupos apresenta uma proporo
de fumadores superior
proporo da amostra total.

Teste do qui-quadrado
O teste do Qui-quadrado um dos testes estatsticos
mais antigos (desenvolvido por Karl Pearson no final do
sculo XIX) e um dos mais utilizados em Cincias
Sociais.

 Sero negligenciveis os desvios observados?


 Sero os desvios observados suficientes para dizer que h
associao?

Permite avaliar se a distribuio observada na amostra


se ajusta ou no observao esperada caso haja
independncia.

45

Hipteses

Dados

H0 : O consumo de tabaco independente do sexo do


adolescente.
versus
H1 : O consumo de tabaco est associado ao sexo do
adolescente.

Dados

Distribuio observada

Distribuio esperada
se H0 for verdadeira

Fuma

No
fuma

Total

Fuma

No
fuma

Rapaz

30

50

80

Rapaz

Total
80

Rapariga

20

100

120

Rapariga

120

Total

50

150

200

Total

50

150

200

Dados

Distribuio observada

Distribuio esperada
se H0 for verdadeira

Distribuio observada

Distribuio esperada
se H0 for verdadeira

Fuma

No
fuma

Total

Fuma

No
fuma

Total

Fuma

No
fuma

Rapaz

30

50

80

Rapaz

20

80

Rapaz

30

50

80

Rapaz

20

60

80

Rapariga

20

100

120

Rapariga

30

120

Rapariga

20

100

120

Rapariga

30

90

120

Total

50

150

200

Total

50

200

Total

50

150

200

Total

50

150

200

Fuma

No
fuma

Total

150

Total

Qual a percentagem de fumadores observada na amostra? 50/200 = 25%.

Qual a percentagem de no fumadores observada? 120/200 = 75%.

Ento quantos rapazes deveriam fumar? 25% x 80 = 20.

Ento quantos rapazes deveriam ser no fumadores? 75% x 80 = 60.

Quantas raparigas deveriam fumar? 25% x 120 = 30.

Quantas raparigas deveriam ser no fumadoras? 75% x 120 = 90.

Dados

Estatstica do qui-quadrado

Distribuio observada

Distribuio esperada
se H0 for verdadeira

Fuma

No
fuma

Total

Fuma

No
fuma

Rapaz

30

50

80

Rapaz

20

60

Total
80

Rapariga

20

100

120

Rapariga

30

90

120

Total

50

150

200

Total

50

150

200

Estas duas distribuies distribuio observada e distribuio esperada no


caso de independncia so diferentes.
A estatstica do qui-quadrado mede a diferena entre estas duas
distribuies.

A estatstica de qui-quadrado
simplesmente a soma do quadrado das
diferenas entre a frequncia observada
de cada clula (O) e a frequncia
esperada (E), dividida por E.
Se as duas distribuies (observada e esperada) forem iguais, o valor de X2
nulo.
Quanto maior o valor de X2, mais a distribuio observada se afasta da
distribuio esperada e mais se deve suspeitar de que existe associao
entre as variveis.

46

Clculo da estatstica do qui-quadrado


Observada (O)

Fuma

No fuma

Rapaz

20

60

80

120

Rapariga

30

90

120

200

Total

50

150

200

Fuma

No fuma

Total

Rapaz

30

50

80

Rapariga

20

100

Total

50

150

Fuma

No fuma

Total

1,667

6,667

Rapariga

3,333

1,111

3,444

Total

5,333

2,778

11,111

(O - E)2 / E
Rapaz

Esperada (E)

Distribuio do qui-quadrado

Total

X2 = (30-20)2 / 20 + (50-60)2 / 60
+ (20-30)2 / 30 + (100-90)2 / 90 =
11,11

Distribuio do qui-quadrado

Distribuio do quiquadrado para diferentes


graus de liberdade

Como se comporta a estatstica de qui-quadrado?


O qui-quadrado uma varivel que toma valores positivos e cuja distribuio
depende de um nico parmetro ( - graus de liberdade). Esta distribuio
conhecida e encontra-se tabelada.
O valor mdio de uma distribuio de qui-quadrado corresponde ao valor de
e a varincia ao valor 2.

Distribuio do qui-quadrado

Quanto maior o valor de , mais a


distribuio do qui-quadrado se aproxima
de uma distribuio normal.

( = 1, 2, , 5).

Graus de liberdade no teste de


independncia
De uma forma geral, o nmero de graus de liberdade associados a uma
tabela de contingncia podem ser calculados da seguinte forma:
gl = (n de linhas 1) x (n de colunas 1)
No caso de uma tabela 2x2, o nmero de graus de liberdade ser sempre:

Teste de independncia regra de


teste

Se o valor observado da estatstica X2


se afastar muito do centro da
distribuio, isso significa que as duas
tabelas em comparao (observada e
esperada) so diferentes e de rejeitar
a hiptese de independncia (H0).

gl = (2 1) x (2 1) = 1
Ateno: O teste de independncia do qui-quadrado dever ser sempre um
teste direita, em que a zona de rejeio corresponde sempre a .

47

Teste de independncia deciso

Condies de aplicao do teste de


independncia
 As frequncias esperadas devem ser superiores a 5; alguns
autores afirmam que esta exigncia excessiva, bastando que
todas as clulas tenham frequncia esperada superior a 1 e que
80% das clulas tenham frequncia esperada superior a 5.

De regresso ao exemplo
Estatstica de teste: X2 = 11,11
Graus de liberdade de distribuio de qui-quadrado: = 1
Valor crtico para = 0,05: 2(1)0,05 = 3,841 (ver tabela)
Como X2 > 3,841, rejeita-se H0, ou seja, parece existir associao entre as
duas variveis (sexo do adolescente e fumar).

Teste de independncia do qui-quadrado


(output do SPSS)

Tabela de contingncia,
com indicao da
frequncia observada, das
percentagens relativas
distribuio condicionada
ao sexo e dos resduos
ajustados.

 As observaes tm de ser independentes (a mesma observao


no pode ser contada duas vezes)
 Embora possa ser utilizado com variveis nominais, ordinais ou
de escala, o teste de independncia do qui-quadrado trata-as
todas como se fossem nominais, pelo que se est a perder
informao; existem testes de associao alternativos mais
potentes que levam em conta a quantificao presente nas
variveis ordinais e de escala.

Teste de independncia do qui-quadrado


(output do SPSS)

Estatstica de teste: X2 = 11,1 (gl = 1)


Nvel de significncia associado: p = 0,001
A informao no inferior da tabela indica que no existem clulas na tabela com
frequncia esperada inferior a 5, pelo que o teste est a ser realizado nas melhores
condies.

Teste de independncia do qui-quadrado


(output do SPSS)

Teste de independncia anlise


posterior

Se duas variveis forem independentes, no h mais a dizer sobre a


sua relao a anlise fica concluda.
No entanto, se se rejeitar a independncia, necessrio esclarecer de
que forma as duas variveis se associam. Este esclarecimento pode
ser feito com auxlio de grficos e da anlise de resduos.
No caso de tabelas 2x2, se o teste no pudesse ser aplicado por existirem
frequncias esperadas inferiores a 5 poder-se-ia recorrer a um
procedimento alternativo (o Teste Exacto de Fisher).

48

Teste de independncia anlise


posterior
0,9
0,8

Anlise de resduos
Analisar os resduos
(ajustados) permite identificar
quais as clulas da tabela que
responsveis pela noindependncia dos dados.

O grfico apresenta a distribuio da


varivel fumar condicionada ao sexo.

Fuma
No fuma

0,7
0,6
0,5

Verifica-se
que
a
percentagem
de
fumadores entre os rapazes (37,5%)
claramente superior percentagem de
fumadores entre as raparigas (16,7%).

0,4
0,3
0,2
0,1
0
Rapaz

Rapariga

No entanto, esta anlise apenas descritiva


a significncia das diferenas apontadas
feita atravs da anlise de resduos.

Teste de independncia concluso

Anlise de resduos
Este resduo positivo (+) e
superior a 2, pelo que se pode
dizer que na amostra existem
mais rapazes a fumar do que os
que seriam de esperar com base
na hiptese da independncia.
Este resduo negativo (-) e superior a 2,
pelo que se pode dizer que na amostra
existem menos raparigas a fumar do que as
que seriam de esperar com base na hiptese
da independncia.

Como os resduos ajustados tm uma distribuio normal padronizada, se


tomarem valores superiores a 1,96 ( 2), podemos dizer que so
significativos (ao nvel de significncia = 5%).

Nota: numa tabela 2x2,


os resduos so sempre
numericamente iguais,
s diferindo no sinal

Testes de hipteses
Sua aplicaes e limites

Resumindo
Os dados sugerem que existe associao entre o sexo do
adolescente e o acto de fumar (X2 = 11,1, gl = 1, p = 0,001).
Essa associao resulta do facto dos rapazes fumarem mais
do que as raparigas.

Associao entre trs variveis


Qual o efeito de ter pertencido aos Escuteiros no comportamento
delinquente adulto? Estudo com uma amostra de 530 indivduos do
sexo masculino.
Escuteiros * Deliquncia Crosstabulation

B. Associao entre trs


variveis nominais

Escuteiros

Sim

No

Total

Count
% within Deliquncia
Adjusted Residual
Count
% within Deliquncia
Adjusted Residual
Count
% within Deliquncia

Deliquncia
Sim
No
19
239
30,2%
51,2%
-3,1
3,1
44
228
69,8%
48,8%
3,1
-3,1
63
467
100,0%
100,0%

Total
258
48,7%
272
51,3%
530
100,0%

Associao estatisticamente significativa (X2 = 9,8, df = 1, p = 0,002):


menor incidncia de indivduos delinquentes no grupo daqueles que
foram escuteiros em criana.

49

Associao entre trs variveis

Associao entre trs variveis

E se levarmos em conta o estatuto socioeconmico das famlias (SES


alto versus SES baixo)?

Estamos perante um padro de independncia especfico designado


por independncia condicional: a independncia entre ter sido
escuteiro e delinquncia condicional ao SES. dentro de cada
nvel de SES considerado no existe associao entre ter sido
escuteiro e delinquncia.

Escuteiros * Deliquncia * SES Crosstabulation


SES
Baixo

Escuteiros

Sim

Count
% within Deliquncia
Adjusted Residual
Count
% within Deliquncia
Adjusted Residual
Count
% within Deliquncia
Count
% within Deliquncia
Adjusted Residual
Count
% within Deliquncia
Adjusted Residual
Count
% within Deliquncia

No

Total
Alto

Escuteiros

Sim

No

Total

Deliquncia
Sim
No
11
43
20,8%
20,3%
,1
-,1
42
169
79,2%
79,7%
-,1
,1
53
212
100,0%
100,0%
8
196
80,0%
76,9%
,2
-,2
2
59
20,0%
23,1%
-,2
,2
10
255
100,0%
100,0%

Total
54
20,4%
211
79,6%
265
100,0%
204
77,0%
61
23,0%
265
100,0%

A associao entras
variveis desapareceu.

duas

Grupo SES baixo:


X2 = 0,0, df = 1, p = 0,939
Grupo SES baixo
X2 = 0,1, df = 1, p = 0,817

Tipos de independncia numa


tabela de trs entradas


Independncia mtua (X, Y e Z so independentes entre


si): log ijk = + iX + jY + kZ

Independncia conjunta (X independente de Y e Z, mas


Y e Z esto associados): log ijk = + iX + jY + kZ + jkYZ

Independncia condicional (X e Y so independentes


quando condicionados a Z): log ijk = + iX + jY + kZ + ikXZ
+ jkYZ

Independncia marginal (X e Y so independentes quando


se ignora a informao sobre Z): log ijk = + iX + jY

Esta associao surge na anlise bivariada (ignorando SES) apenas


por existir associao entre SES e ter sido escuteiro. Se se controlar o
SES, esta associao desaparece.
Assim, existe associao entre ser escuteiro e SES, entre SES e
delinquncia mas no entre ser escuteiro e delinquncia.

Tipos de independncia numa


tabela de trs entradas
 A independncia mtua implica independncia conjunta
(todas as variveis so independentes uma das outras)
 A independncia conjunta implica independncia
marginal (um varivel independente das outras dias)
 A independncia marginal no implica independncia
conjunta
 A independncia marginal no implica independncia
condicional
 A independncia condicional no implica independncia
marginal

Associao entre trs variveis


Em que medida a exposio a mass media (TV e jornais) influencia o
conhecimento que se tem sobre o cancro? Estudo com uma amostra
de 1000 indivduos de ambos os sexos.
Jornal * TV * Cancro Crosstabulation
TV
Cancro
Alto

Jornal

Alto
Baixo

Total
Baixo

Jornal

Alto
Baixo

Total

Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal
Count
% within Jornal

Alto
179
37,0%
62
52,1%
241
40,0%
122
38,2%
40
51,3%
162
40,8%

Baixo
305
63,0%
57
47,9%
362
60,0%
197
61,8%
38
48,7%
235
59,2%

Total
484
100,0%
119
100,0%
603
100,0%
319
100,0%
78
100,0%
397
100,0%

50