Você está na página 1de 17

Estatstica II

Sociologia e Sociologia e Planeamento

ISCTE
SOCIOLOGIA E SOCIOLOGIA E PLANEAMENTO
Ano Lectivo 2003/2004 (2 Semestre)

ESTATSTICA II
(Textos de Apoio das Aulas)

Testes No-Paramtricos
(Qui-Quadrado de Independncia
Teste de Fisher
Medidas de Associao baseadas no Qui-Quadrado)
Carlos Loureno, Dep. Mtodos Quantitativos
(carlos.lourenco@iscte.pt)

Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

5. TESTES NO-PARAMTRICOS (Cont.)


5.3. Tabelas de Contingncia (Crosstabs): Testes de Independncia e Medidas de Associao
Uma das questes mais apaixonantes na Sociologia ser porventura a dismistificao do absolutismo
do objecto amoroso como razo para a unio entre indivduos. Most people marry within their socialclass because they share similar attitudes, values, and lifestyles. [] even workplaces and educational
systems often reflect social-class endogamy. Eckland (1968) referred to colleges and universities as
matrimonial agencies that are arranged hierarchically.1 Muitas das vezes, a unio dar-se- com uma
grande intromisso de factores circunstanciais.
Perscrutemos, ainda que de forma bastante indirecta e algo forada, aquela hiptese (muito) geral.
Vejamos na nossa amostra a distribuio conjunta das habilitaes literrias do pai e da me dos
alunos que responderam ao inqurito (e a representao grfica):2

Habilitaes da me * Habilitaes do pai Crosstabulation

Total

Count
% within
77,9%
Habilitaes do pai
Ensino Secundrio
Count
17
% within
19,8%
Habilitaes do pai
Ensino Mdio/SuperiorCount
2
% within
2,3%
Habilitaes do pai
Count
86
% within
100,0%
Habilitaes do pai

Ensino Bsico

60

Total
84

30,2%

12,5%

22

10

52,2%
49

51,2%

31,3%

30,4%

18

28

18,6%

56,3%

17,4%

43

32

161

100,0%

100,0%

100,0%

Ensino Secundrio
Ensino Mdio/Superior
Bars show counts

Count

Habilitaes Ensino Bsico


da me

Habilitaes da me

Habilitaes do pai
Ensino
Ensino
Ensino
Mdio/Su
Bsico
Secundrio
perior
67
13
4

40

20

0
Ensino Bsico

Ensino SecundrioEnsino Mdio/Superior

Habilitaes do pai

Leitura das percentagens em coluna


Dos alunos cujos pais (homens) tm o Ensino Bsico, a maioria, cerca de 78%, refere que a me tem
igualmente o primeiro nvel de ensino; dos alunos cujos pais tm o Ensino Secundrio, a maioria,
cerca de 51%, refere que a me tem o mesmo nvel de ensino; e dos alunos cujos pais tm o Ensino
Superior, a maioria, cerca de 56%, refere que a me tem a mesma habilitao.
Parece assim existir uma relao (positiva) entre as habilitaes dos progenitores, levando a crer que
as duas variveis no sero independentes. Ou seja, no se est a tentar afirmar que o facto de um dos
progenitores ter uma determinda habilitao se deve ao companheiro tambm ter essa mesma
habilitao, mas sim que o facto de um aluno responder que ambos os progenitores tm a mesma
habilitao no uma resposta independente.

Nijole V. Benokraitis (1996), Marriages and Families Changes, Choices, and Constraints, Prentice Hall, Inc.,
2nd Edition; Part Three Individual and Marital Commitments; Chapter 8: Becoming a Couple: Dating, Rating,
and Mating; Choices and Constraints in Dating and Mate Selection, Social Class.
2
Note que neste caso no se pretende indicar a direco de causalidade entre as duas variveis. Por esta razo, a
disposio da tabela, colocando as habilitaes do pai em coluna, perfeitamente arbitrria (no se est a
pretender explicar as habilitaes da me em linha pela habilitaes do pai em coluna.
Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

Para inferirmos estas mesmas concluses para as populaes, necessitamos de realizar um teste
de independncia. Os Testes de Independncia em tabelas de contingncia (crosstabs) so os
seguintes:

Teste do Qui-Quadrado de Independncia (ou Teste do Qui-Quadrado de Pearson3);


Teste do Rcio de Verosimilhanas4 (tambm com distribuio do qui-quadrado);
Teste de Fisher (para tabelas 2x2, em alternativa ao teste 2 quando este no se pode aplicar);

Complementarmente anlise de independncia, ou dito de outro modo, anlise de existncia


de relao entre duas variveis, podemos estar interessados na sua intensidade, para o que
calculamos as Medidas de Associao. As medidas de associao podem organizar-se consonte
as escalas de medida das variveis em anlise:5

Medida de Associao
Phi
V de Cramer
Coeficiente de Contingncia
Tau B de Kendall
Tau C de Kendall
Eta
Eta2

Aplicao
Nominal vs. Nominal
(ou quando a ordem no for tomada em
considerao, e portanto, pode aplicar-se
quando temos Ordinal vs. Nominal e
Ordinal vs. Ordinal6)
Ordinal vs. Ordinal
(ou seja, a ordem tomada em
considerao)
Nominal vs.Intervalo
(ou quando uma outra escala for tratada
como nominal7)

As medidas de associao no devem porm ser confundidas com as Medidas de Correlao:

Coeficiente de Correlao Ordinal de Spearman (Ordinais vs. Ordinais)8


Coeficiente de Correlao Linear r de Pearson (Quantitativas vs. Quantitativa)

Do Ingls Pearson Chi-Square.


Do Ingls Likelihood Ratio.
5
Recorde a anlise bivariada apresentada em Estatstica I.
6
Note que uma varivel quantitativa, quando agregada em classes e usada como tal, passa a ter natureza
qualitativa e a estar medida numa escala ordinal (se se mantiver uma ordem), incluindo-se em todos os
casos da tabela onde estiver escala ordinal.
7
Veja um exemplo em Helena Carvalho (2004), Anlise de Varincia Simples Paramtrica (Outputs de
SPSS), pg. 11.
8
Do Ingls Rank correlation ou Spearmans Rho
4

Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

5.3.1. Teste do Qui-Quadrado de Independncia


O teste do Qui-Quadrado de independncia pode ser entendido como uma generalizao do teste
do Qui-Quadrado de ajustamento. Em vez de se testar se uma determinada varivel segue uma
determinada distribuio terica, vai agora testar-se se duas variveis (duas populaes) tm a
mesma distribuio, o que, a acontecer, significar ento que so independentes. Ou seja, no
exemplo em cima utilizado, essa situao ocorreria se, independentemente das habilitaes da
me, as habilitaes do pai tivessem sempre a mesma distribuio. Por exemplo,
Habilitaes da me * Habilitaes do pai Crosstabulation
Habilitaes do pai

Habilitaes da me

Ensino Bsico

Ensino Secundrio

Ensino
Mdio/Superior
Total

Count
% within
Habilitaes do pai
Count
% within
Habilitaes do pai
Count
% within
Habilitaes do pai
Count
% within
Habilitaes do pai

Ensino
Bsico
67

Ensino
Secundrio
22

Ensino
Mdio/Sup
erior
18

Total
84

77,9%

51,2%

56,3%

52,2%

17

13

10

49

19,8%

30,2%

31,3%

30,4%

28

2,3%

18,6%

12,5%

17,4%

86

43

32

161

100,0%

100,0%

100,0%

100,0%

Em que, claramente, qualquer que seja a habilitao do pai, a maioria tem a me apenas com o
nvel de Ensino Bsico.
Formulao das hipteses estatsticas
Para facilitar a exposio que se segue, apresentamos a seguinte notao para as frequncias
observadas:
Varivel 1

Varivel 2

B1

B2

Bc

Total em linha

A1

O11

O12

O1c

O1

A2

O21

O22

O2 c

O 2

Ar

O r1

Or 2

Orc

Or

Total em coluna

O1

O2

Oc

Onde

a varivel 1 (em linha) tem Ai categorias, com i = 1,2, , r (r de rows, linhas em ingls);
a varivel 2 (em coluna) tem B j categorias, com j = 1,2, , c (c de columns).

oij o nmero de casos da amostra que esto em simultneo na categoria Ai da

primeira varivel e na categoria B j da segunda varivel.9


9

Na tabela, note que os totais de cada coluna (linha) tm um ponto em substituio do ndice respeitante
linha (coluna), uma vez que se tratam das somas das frequncias observadas em todas as linhas (colunas)
Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

E para a tabela das habilitaes, temos


Habilitaes do pai

Habilitaes da me

Total

B1

B2

B3

A1

o11

o12

o13

o1

A2

o 21

o 22

o 23

o 2

A3

o 31

o32

o 33

o3

Total

o1

o 2

o3

E quanto s frequncias esperadas? Definimos primeiro o seguinte:


p ij

a probabilidade de um indivduo da amostra pertencer categoria Ai e categoria B j

p j

em simultneo;
a probabilidade marginal de um indivduo da amostra pertencer categoria Ai da
varivel em linha;
a probabilidade marginal de um indivduo da amostra pertencer categoria B j da

E ij

varivel em coluna;
o nmero esperado de indivduos em ambas as categorias Ai e B j ;

E i
E j

o nmero esperado de indivduos na categoria Ai da varivel em linha;


o nmero esperado de indivduos na categoria B j da varivel em coluna.

p i

Podemos agora definir as frequncias esperadas, como


E ij = np ij ,

E i = np i

E j = np j .

Se as duas variveis forem independentes, ento verifica-se


p ij = p i p j

E no teste do Qui-Quadrado de Independncia as hipteses em teste so ento:10


ou

H 0 : p ij = p i p j

H a : As variveis X e Y no so independentes , ou

H a : p ij p i p j

H 0 : As variveis X e Y so independentes ,

de cada uma dessas colunas (linhas), Oc e Or . E, naturalmente, o total dos totais em coluna (ou em
linha), tem dois pontos, correspondendo soma total, O .
10
O teste do Qui-Quadrado um teste bilateral.
Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

Definio da estatstica de teste


A estatstica de teste do Qui-Quadrado de Independncia vai assim basear-se igualmente na
comparao das frequncias observadas (na amostra) em cada classe com as frequncias
esperadas que deveriam ocorrer nessas mesmas classes:
r

2 =

(O

i =1 j =1

E ij

ij

E ij

No entanto, como no se conhecem as verdadeiras probabilidades marginais, teremos de as


estimar atravs das frequncias observadas:
o j
oi
e p j =
n
n

p i =

E sob a hiptese nula, H 0 : p ij = p i p j , o nmero esperado de indivduos em ambas as


categorias Ai e B j , ser dado por
o o j
eij = E ij = np i p j = n i

n n
oi o j
eij =
n

Ento, finalmente, a estatstica de teste, Qui-Quadrado de Pearson, vem11

X2 =

(o

i =1 j =1

ij

eij
eij

(2r 1)(c 1)

A Correco de Continuidade de Yates


Em amostras de dimenso reduzida ( n < 60 ), pode usar-se a correco de continuidade, uma
correco proposta por F. Yates. E a estatstica de teste, nesse caso, vem
2

X =

i =1 j =1

(o

ij

eij 0,5
eij

(2r 1)(c 1)

Valor Crtico e Tomada de Deciso


Grandes diferenas entre as frequncias observadas e as frequncias esperadas (e, portanto, quanto
maior o valor da estatstica de teste), indicam que a hiptese nula no vlida. Ento, quanto
maior o valor da estatstica de teste maior ser a propenso para rejeitar a hiptese nula H 0 .
Assim, rejeitamos H 0 quando X 2 12 ;(r 1)(c 1) .12
11

Do Ingls Pearson Chi-Square.


Apesar de o teste do Qui-Quadrado ser um teste bilateral, a regio de rejeio define-se apenas no
extremo direito da distribuio onde as duas probabilidades 2 se acumulam (Maroco, 2003).

12

Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

Regra de Aplicao do Qui-Quadrado


Tal como no teste de ajustamento, assumem-se as seguintes regras para a aplicao do QuiQuadrado de Independncia:13
1. No mais de 20% das clulas tm frequncia esperada inferior a 5 observaes;
2. Todas as clulas tm frequncia esperada igual ou superior a 1 ( eij 1, i , j ).14

Nota Sobre as Regras de Aplicao do Qui-Quadrado e Como Proceder Para as Obviar


Regras vs. Pressupostos
As regras de aplicao do Qui-Quadrado, de Ajustamento e de Independncia, devem ser, tanto
quanto possvel verificadas, sob pena de os testes no serem rigorosos. Contudo, deve
permanecer a ideia fundamental, alis comum a todos os testes no-paramtricos e que sustenta
a sua existncia como alternativas aos testes paramtricos, de que o teste do Qui-Quadrado no
tem nenhum pressuposto, quer seja sob a forma da distribuio das variveis ou sobre qualquer
caracterstica dos parmetros. Quando se infringirem as suas regras de aplicao h ento perda
de rigor.

Agregar quando possvel as classes mais marginais (pequenas)


Resta apontar que prtica de investigao agregar - quando substantivamente fizer sentido uma ou mais categorias residuais para ultrapassar o problema de infraco das regras. Nesse
caso, a prpria interpretao sofrer alteraes.

Anlise dos Resduos Standardizados Ajustados


Atravs da anlise dos resduos ajustados possvel verificar o impacto da infraco das regras de
aplicao do Teste do Qui-Quadrado de Independncia (no se aplica no teste do Ajustamento).
Quanto maior o resduo ajustado em uma determinada classe, mais essa classe se afasta da
hiptese nula de independncia. Concretamente, devem procurar-se as classes com resduos
ajustados inferiores a -2 ou superiores a +2, indicando afastamentos significativos de H 0 :

Adjusted Residual > +2 ou Adjusted Residual < 2


Significa que, se em determinada(s) classe(s) se verifica existirem menos de 5 frequncias
esperadas, essa infraco ser tanto mais preocupante quanto maior for o seu resduo ajustado,
em particular, quanto mais este se afastar de 2 em valor absoluto, 2 .
Claro que esta questo s se coloca quando a hiptese nula no rejeitada. Caso contrrio, no
faz sentido.

13

Estas regras so utilizadas igualmente pelo SPSS.


Alguns autores acrescentam ainda que a dimenso da amostra deva ser maior que 20 e outros ainda que
esta deva ser maior que 30.

14

Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

Aplicao ao Exemplo

Vamos proceder aplicao do Teste do Qui-Quadrado de Independncia para as variveis


Habilitaes do Pai e Habilitaes da Me.
Formulao das hipteses estatsticas
H 0 : As variveis Hab. Pai e Hab. Me so independentes ,

ou

H 0 : p ij = p i p j

H a : As variveis Hab. Pai e Hab. Me no so independentes ,

ou

H a : p ij p i p j

Escolha e Clculo da estatstica de teste

Dos dados amostrais, temos novamente as seguintes frequncias observadas:


Habilitaes da me * Habilitaes do pai Crosstabulation
Count
Habilitaes do pai

Habilitaes
da me

Ensino
Bsico
67
17
2
86

Ensino Bsico
Ensino Secundrio
Ensino Mdio/Superior

Total

Ensino
Secundrio
13
22
8
43

Ensino
Mdio/Su
perior
4
10
18
32

Total
84
49
28
161

Temos 3 linhas (rows) e 3 colunas (columns), logo, r=3 e c=3. E a nossa estatstica de teste ser:
X2 =

(o

ij

eij

eij

i =1 j =1

Para o que teremos de estimar cada frequncia esperada eij sabendo que
eij =

o i o j
n

Como frequncias observadas totais em linha, oi temos: o1 = 84 , o 2 = 49 e o3 = 28 .


E como frequncias observadas totais em coluna, o j temos: o1 = 86 , o2 = 43 e o3 = 32 .
Tendo como probabilidades marginais (estimadas) em linha o seguinte:
o
o
o
84
49
28
p 1 = 1 =
= 0,522 , p 2 = 2 =
= 0,304 e p 3 = 3 =
= 0,174 .
n 161
n 161
n 161
E como probabilidades marginais (estimadas) em coluna:
o
o
o
86
43
32
p 1 = 1 =
= 0,534 , p 2 = 2 =
= 0,267 e p 3 = 3 =
= 0,199 .
n 161
n 161
n 161

Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

A tabela de contingncia com as frequncias esperadas vir ento como a seguinte:


Habilitaes da me * Habilitaes do pai Crosstabulation
Habilitaes do pai
Bsico
e11 =

Bsico
Habilitaes da
me

o1 o1 84 86
=
= 44,870
n
161

Secundrio

Mdio/Superior

Total

e12 = 22,435

e13 = 16,696

84

o 2 o 3 49 32
=
= 9,739
161
n

Secundrio

e21 = 26,174

e22 = 13,087

Md./Super.

e31 = 14,957

e23 = 7,478

e33 = 5,565

28

Total

86

43

32

161

e11 =

49

O valor do teste ser dado por


X2 =

(o

ij

i =1 j =1

eij
eij

) = (67 44,870) + (17 26,174) + (2 14,957)


2

44,870

26,174

14,957

(13 22,435)2 + (22 13,087 )2 + (8 7,478)2 + (4 16,696)2 + (10 9,739)2 + (18 5,565)2

22,435
13,087
7,478
16,696
9,739
= 10,915 + 3,215 + 11,224 + 3,968 + 6,070 + 0,036 + 9,654 + 0,027 + 27,786

5,565

X 2 72,895

Valor crtico e Tomada de Deciso


Queremos o valor crtico de uma Qui-Quadrado associado a uma probabilidade acumulada de
0,95 e com 4 graus de liberdade: 12 ;(r 1)(c 1) = 120,05;(31)(31) = 02,95; 22 = 02,95; 4 . Consultando
os valores tabelados da distribuio temos 02,95; 4 = 9,49 .
Como o valor da estatstica de teste superior ao valor crtico ( X 2 02,95; 4 72,895 > 9,49 ),
rejeitamos a hiptese nula de independncia entre as duas variveis, Habilitaes do Pai e
Habilitaes do Pai. Com um nvel de significncia de 5%, existe evidncia estatstica que nos
permite afirmar que as variveis em causa so dependentes.
Verificao da Regra de Aplicao do Qui-Quadrado
Nenhuma das regras infringida: (1) todas as clulas tm frequncia esperada superior a 5
observaes; e, obviamente, (2) todas as clulas tm frequncia esperada igual ou superior a 1.
O teste pode ser interpretado com todo o rigor, no havendo portanto necessidade de proceder
agregao de quaisquer clulas ou de analisar os resduos standardizados ajustados.

Carlos Loureno

ISCTE, 2004

Estatstica II
Sociologia e Sociologia e Planeamento

Com o SPSS chegamos (obviamente) aos mesmos resultados:15


Habilitaes da me * Habilitaes do pai Crosstabulation
Habilitaes do pai

Habilitaes
da me

Ensino Bsico

Ensino Secundrio

Ensino Mdio/Superior

Total

Count
Expected Count
% within
Habilitaes do pai
Adjusted Residual
Count
Expected Count
% within
Habilitaes do pai
Adjusted Residual
Count
Expected Count
% within
Habilitaes do pai
Adjusted Residual
Count
Expected Count
% within
Habilitaes do pai

Ensino
Bsico
67
44,9

Ensino
Secundrio
13
22,4

Ensino
Mdio/Su
perior
4
16,7

77,9%

30,2%

12,5%

52,2%

7,0
17
26,2

-3,4
22
13,1

-5,0
10
9,7

49
49,0

19,8%

51,2%

31,3%

30,4%

-3,1
2
15,0

3,5
8
7,5

,1
18
5,6

28
28,0

2,3%

18,6%

56,3%

17,4%

-5,4
86
86,0

,2
43
43,0

6,5
32
32,0

161
161,0

100,0%

100,0%

100,0%

100,0%

Total
84
84,0

Chi-Square Tests

Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases

Value
72,874a
72,107
62,778

4
4

Asymp. Sig.
(2-sided)
,000
,000

,000

df

161

a. 0 cells (,0%) have expected count less than 5. The


minimum expected count is 5,57.

15

O valor do Pearson Chi-Square ligeiramente diferente do valor da estatstica de teste obtido devido a
arredondamentos das casas decimais.
Carlos Loureno

ISCTE, 2004

10

Estatstica II
Sociologia e Sociologia e Planeamento

5.3.1.1. O Caso Particular de Tabelas 2x2


Em cincias sociais usamos muitas vezes variveis dicotmicas, do tipo Sim e No,
Masculino ou Feminino, de 50 u.m. ou + de 50 u.m., etc, e em que o mais comum
que estas estejam medidas em escala nominal.16 As tabelas de contingncia 2x2 tm o aspecto
seguinte:
Varivel 2

Varivel 1

Classe 1

Classe 2

Total em linha

Classe 1

a+b

Classe 2

c+d

Total em coluna

a+c

b+d

(a+c)+(b+d)

Formulao das hipteses estatsticas


H 0 : As variveis X e Y so independentes
H a : As variveis X e Y no so independentes

Estatstica de Teste
Neste caso, a estatstica do teste do Qui-Quadrado simplifica-se ao rcio entre o quadrado da
diferena entre os produtos cruzados e o produto entre os quatro totais marginais, multiplicado
pelo total da amostra, ou seja:

X2 =n

(ad bc )2
2
(a + b )(c + d )(a + c )(b + d ) (r 1)(c 1)

E em amostras de dimenso reduzida, a estatstica de teste corrigida e vem dada por


2

n
2
X2 =n
2
(a + b )(c + d )(a + c )(b + d ) (r 1)(c 1)
ad bc

Valor Crtico e Tomada de Deciso


Rejeitamos H 0 quando X 2 12 ;(r 1)(c 1) .

Regra de Aplicao do Qui-Quadrado


Obviamente, mantm-se as mesmas regras de aplicao que vigoram nas tabelas r x c (com r,c > 2):
1. No mais de 20% das clulas tm frequncia esperada inferior a 5 observaes;
2. Todas as clulas tm frequncia esperada igual ou superior a 1 ( eij 1, i , j ).17

16

Existe alguma controvrsia em admitir que uma varivel respeitante, por exemplo, ao rendimento de
um agregado familiar, com apenas 2 escales, e.g. de 50 u.m. ou + de 50 u.m., esteja em escala
ordinal. Contudo, apesar de se tratar apenas de 2 escales, estes no s nomeiam, como tambm
definem uma ordem entre eles.
17
Alguns autores acrescentam ainda que a dimenso da amostra deva ser maior que 20 e outros ainda que
esta deva ser maior que 30.
Carlos Loureno

ISCTE, 2004

11

Estatstica II
Sociologia e Sociologia e Planeamento

Aplicao a um Exemplo
Suponhamos que por uma qualquer razo estamos a trabalhar com apenas 30% da amostra e que
temos apenas 2 estados civis: solteiros e no-solteiros; a distribuio de alunos por turnos e
por estado civil fica a seguinte:
Estado civil

Horrio (Diurno/Nocturno)

Valid

Diurno
Nocturno
Total

Frequency
37
21
58

Valid Percent
63,8
36,2
100,0

Valid

Solteiro
No Solteiro
Total

Frequency
43
15
58

Valid Percent
74,1
25,9
100,0

Cruzando as duas variveis, e com os dados da amostra, temos a seguinte tabela 2x2 de
frequncias conjuntas observadas:
Horrio (Diurno/Nocturno) * Estado civil Crosstabulation

Horrio
(Diurno /
Nocturno)

Diurno
Nocturno

Total

Count
% within Estado civil
Count
% within Estado civil
Count
% within Estado civil

Estado civil
Solteiro
No Solteiro
34
3
79,1%
20,0%
9
12
20,9%
80,0%
43
15
100,0%
100,0%

Total
37
63,8%
21
36,2%
58
100,0%

Na amostra, dos alunos solteiros, cerca de 79% est no horrio diurno, enquanto que dos alunos
no-solteiros, 80% est no horrio nocturno. Queremos testar a independncia entre as
variveis estado civil e o horrio das aulas.

Formulao das hipteses estatsticas


H 0 : As variveis estado civil e horrio so independentes
H a : As variveis estado civil e horrio no so independentes

Estatstica de Teste
Estamos na presena de uma amostra de reduzida dimenso ( n = 58 , logo n < 60 ). Vamos
ento exemplificar o clculo da estatstica de teste pelas duas vias possveis: (1) com a frmula
genrica para tabelas r x c, mas com a correco de Yates, e (2) com a frmula para tabelas 2x2,
igualmente corrigida (os resultados tero, necessariamente, de ser iguais).
(1) Tabelas r x c
Horrio (Diurno/Nocturno) * Estado civil Crosstabulation
Estado civil
Solteiro
Horrio
(Diurno /
Nocturno)

Diurno
Nocturno

Total

Carlos Loureno

No Solteiro

37 43
= 27,431
58

Total

e12 = 9,569

37

e21 = 15,569

e22 = 5,431

21

43

15

58

e11 =

ISCTE, 2004

12

Estatstica II
Sociologia e Sociologia e Planeamento

Estatstica de Teste com a Correco de Yates18


2

X =

(o

ij

eij 0,5
eij

i =1 j =1

) ( 34 27,431 0,5) ( 9 15,569 0,5)


=
+
2

27,431

( 3 9,569 0,5)2 (12 5,431 0,5)2


+

9,569

5,431

15,569

= 1,343 + 2,366 + 3,849 + 6,782

X 2 = 14,34
(2) Tabelas 2x2

Estatstica de Teste Corrigida


2

n
58
ad bc
34 12 3 9
2
2
X2 =n
= 58
(a + b )(c + d )(a + c )(b + d )
37 21 43 15

7186432
= 14,34
501165

Valor Crtico e Tomada de Deciso


Consultando a tabela do Qui-Quadrado, temos 02,95;1 = 3,84 , pelo que X 2 12 ;(r 1)(c 1) , e
portanto rejeitamos H 0 .19 Existe evidncia estatstica para afirmar, com um nvel de
significncia de 5%, que, na populao, o estado civil e o horrio no so independentes.

Verificao da Regra de Aplicao do Qui-Quadrado


Nenhuma das clulas tem frequncia esperada inferior a 5 observaes, logo, todas as clulas
tm frequncia esperada igual ou superior a 1.
Com o SPSS chegamos (obviamente) aos mesmos resultados:
Horrio (Diurno/Nocturno) * Estado civil Crosstabulation

Horrio (Diurno/Nocturno)

Diurno

Nocturno

Total

18

Count
Expected Count
% within Estado civil
Adjusted Residual
Count
Expected Count
% within Estado civil
Adjusted Residual
Count
Expected Count
% within Estado civil

Estado civil
Solteiro
No Solteiro
34
3
27,4
9,6
79,1%
20,0%
4,1
-4,1
9
12
15,6
5,4
20,9%
80,0%
-4,1
4,1
43
15
43,0
15,0
100,0%
100,0%

Total
37
37,0
63,8%
21
21,0
36,2%
58
58,0
100,0%

Sem a correco de continuidade, a estatstica de teste dada por:

X2 =

(o

i =1 j =1

ij

eij
eij

) (34 27,431)
=
2

27,431

(9 15,569)2 + (3 9,569)2 + (12 5,431)2


15,569

9,569

5,431

= 1,573 + 2,772 + 4,510 + 7,945 X 2 = 16,8


19

Note que em tabelas 2x2, o nmero de graus de liberdade sempre igual a 1: (r 1)(c 1) = (2 1)(2 1) = 1 1 = 1 .

Carlos Loureno

ISCTE, 2004

13

Estatstica II
Sociologia e Sociologia e Planeamento
Chi-Square Tests

Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases

Value
16,800b
14,339
16,801
16,510

df
1
1
1

Asymp. Sig.
(2-sided)
,000
,000
,000

Exact Sig.
(2-sided)

Exact Sig.
(1-sided)

,000

,000

,000

58

a. Computed only for a 2x2 table


b. 0 cells (,0%) have expected count less than 5. The minimum expected count is
5,43.

5.3.2. Teste de Fisher


um teste no-paramtrico adequado para a comparao de duas populaes a partir de
pequenas amostras independentes e relativamente a uma varivel nominal dicotmica. Surge
como uma alternativa ao teste do Qui-Quadrado de Independncia quando este no se pode
aplicar.
As hipteses nulas do teste de Fisher dizem respeito s propores da primeira classe da
varivel em linha para as duas classes da varivel em coluna (as 2 populaes). Se, por
exemplo, estivermos a trabalhar com o Sexo e o Estado Civil para uma das turmas apenas (a
turma SA3), a tabela 2x2 vem
a
Estado civil * Sexo Crosstabulation

Count

Estado
civil

Solteiro
No Solteiro

Total

Sexo
Feminino
Masculino
7
4
1
1
8
5

Total
11
2
13

a. Turma = SA3

E a hiptese nula do teste de Fisher neste caso dir respeito igualdade de propores de alunos
solteiros entre os 2 sexos. Se a classe no-solteiro estivesse posicionada na tabela de
contingncia no lugar da primeira classe, nesse caso a hiptese nula j diria respeito igualdade
de propores de alunos no-solteiros entre os 2 sexos. Concretizemos o exemplo.
Formulao das hipteses estatsticas
Queremos comparar a proporo de solteiros entre alunos do sexo feminino e alunos do sexo
masculino. Na hiptese nula iremos formular a hiptese em que estas propores so iguais,
contra a hiptese alternativa em que a proporo de alunos solteiros do sexo feminino
menor do que os do sexo masculino (significando nesse caso que a proporo de alunas nosolteiras seria maior, indicando uma maior antecipao na alterao do seu estado civil
comparativamente aos alunos do sexo masculino).
p a proporo de alunos solteiros; E as hipteses so formuladas do seguinte modo:
H 0 : p fem = p mas ou H 0 : p fem p mas = 0
H a : p fem < p mas ou H a : p fem p mas < 0 (teste unilateral, esquerda)

Carlos Loureno

ISCTE, 2004

14

Estatstica II
Sociologia e Sociologia e Planeamento

Clculo da Probabilidade de Significncia p-value e Tomada de Deciso


O Teste de Fisher no faz uso de uma estatstica de teste, antes calcula unicamente a
probabilidade de significncia (o p-value) e compara-o com o nvel de significncia escolhido.
Como sempre, quando p value
Rej .H 0 . Uma vez que o clculo do p-value envolve
operaes muito morosas que implicam conhecimentos (ainda que bsico) de clculo
combinatrio, optmos por apresentar apenas a sua interpretao atravs de outputs do SPSS.
No exemplo anterior (do sexo e do estado civil na turma SA3) a dimenso da amostra e as
frequncias esperadas no permitem aplicar o Qui-Quadrado com rigor (embora os resduos
sejam menores que 2 emvalor absoluto):20
a
Estado civil * Sexo Crosstabulation

Estado
civil

Solteiro

Count
Expected Count
% within Sexo
Adjusted Residual
Count
Expected Count
% within Sexo
Adjusted Residual
Count
Expected Count
% within Sexo

No Solteiro

Total

Sexo
Feminino
Masculino
7
4
6,8
4,2
87,5%
80,0%
,4
-,4
1
1
1,2
,8
12,5%
20,0%
-,4
,4
8
5
8,0
5,0
100,0%
100,0%

Total
11
11,0
84,6%
2
2,0
15,4%
13
13,0
100,0%

a. Turma = SA3

Devemos ento aplicar o teste de Fisher. Atravs do SPSS temos ento o seguinte resultado:
Chi-Square Testsc

Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases

Value
,133b
,000
,130

df
1
1
1

,123

Asymp. Sig.
(2-sided)
,715
1,000
,718

Exact Sig.
(2-sided)

Exact Sig.
(1-sided)

1,000

,641

,726

13

a. Computed only for a 2x2 table


b. 3 cells (75,0%) have expected count less than 5. The minimum expected count is
,77.
c. Turma = SA3

Como se pode verificar, com um nvel de significncia de 5%, o teste indica que no se rejeita a
hiptese nula, isto , a hiptese de a proporo de alunos solteiros entre o sexo feminino e o
sexo masculino ser igual ( 0,641 > 0,05 No Rej .H 0 )

5.3.3. Teste do Rcio de Verosimilhanas


Testa igualmente a independncia. Apresentamos apenas a sua estatstica de teste:21
X2 =2

i =1 j =1

Oij ln

Oij
E ij

(2r 1)(c 1)

20

Note-se no entanto que os resduos standardizados ajustados indicam que nenhuma das 3 clulas onde
existem menos de 5 observaes esperadas, se afastam signi
21
Para ser aplicado deve verificar-se [n ( r c )] 5 .

Carlos Loureno

ISCTE, 2004

15

Estatstica II
Sociologia e Sociologia e Planeamento

5.3.4. Medidas de Associao baseadas no Qui-Quadrado


So as seguintes, as principais medidas de associao baseadas no Qui-Quadrado:

Medida

Clculo

Phi

Phi =

V de Cramer

V=

Coeficiente de
Contingncia

C=

Valores que assume e comentrio

S em tabelas 2x2 que assume valores entre 0 e 1.

n(q 1)

0 V 1
(em tabelas 2x2 o Phi igual ao V de Cramer)

q 1
,onde q = min (r , c ) , ou seja, o menor
q
nmero de entre o nmero de linhas e colunas; portanto,
mesmo no caso de associao perfeita nunca assume o valor 1.
0C

2
2 + n

Exemplifiquemos o seu clculo para os exemplos anteriores.

Habilitaes do Pai vs. Habilitaes da Me (tabela r x c, em particular 3x3)22

X 2 = 72,874 e n = 161.
Medida

Clculo

Phi

Phi =

V de Cramer

V=

Coeficiente de
Contingncia

C=

2
n

Valores que assume e comentrio

72,874
= 0,673
161

72,874
72,874
=
= 0,476
(
)
161 3 1
322

72,874
= 0,558
72,874 + 161

Uma vez que apenas em tabelas 2x2 os seus


valores se encontram entre 0 e 1, difcil ter a
noo de intensidade da associao.

0 V 1 , parece existir uma associao fraca.

q 1
3 1
=
= 0,816
, parece existir uma
q
3
0 C 0,816
associao forte 0,558 > (0,816 2) .

22

Como as medidas de associao se baseiam no Qui-Quadrado, optou-se por usar o valor da estatstica
de teste com os arredondamentos do SPSS encontrada anteriormente, de modo a obter valores das
medidas de associao mais prximas das do software.

Carlos Loureno

ISCTE, 2004

16

Estatstica II
Sociologia e Sociologia e Planeamento

E atravs do SPSS confirmamos os resultados:


Symmetric Measures

Nominal by
Nominal

Value
,673
,476
,558
,626
,618
161

Phi
Cramer's V
Contingency Coefficient
Pearson's R
Spearman Correlation

Interval by Interval
Ordinal by Ordinal
N of Valid Cases

Asymp.
a
Std. Error

Approx. T

,057
,058

10,133
9,904

Approx. Sig.
,000
,000
,000
,000c
,000c

a. Not assuming the null hypothesis.


b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on normal approximation.

De salientar que em todas as medidas rejeitada a hiptese nula de os seus valores serem no
significativos ( p value 0,05 ).23 Note ainda que o coeficiente de correlao ordinal, R de
Spearman, indica a existncia de uma correlao ordinal algo forte (0,618 > 0,5) entre as duas
variveis (e igualmente significativo).

Horrio vs. Estado Civil (tabela 2x2)


X 2 = 14,34 e n = 58.
Medida

Clculo

Phi

Phi =

V de Cramer

V=

Coeficiente de
Contingncia

C=

2
n

Valores que assume e comentrio


Como estamos numa tabela 2x2 0 Phi 1 ; a
associao no muito forte (nem muito fraca).

14,34
= 0,497
58

14,34
14,34
=
= 0,497
58(2 1)
58

0 V 1 , a associao no muito forte (nem


muito fraca). O valor encontrado , obviamente,
igual ao Phi (porque q = 2).

q 1
2 1
=
= 0,707
, parece existir uma
q
2

14,34
= 0,445
14,34 + 58

0 C 0,707
associao forte 0,445 > (0,707 2)

E atravs do SPSS confirmamos os resultados (as medidas so significativas):24


Symmetric Measures

Nominal by
Nominal
Ordinal by
Ordinal

Phi
Cramer's V
Contingency Coefficient
Kendall's tau-b
Kendall's tau-c

N of Valid Cases

Value
,538
,538
,474
,538
,453
58

Asymp.
a
Std. Error

Approx. T

,115
,113

3,998
3,998

Approx. Sig.
,000
,000
,000
,000
,000

a. Not assuming the null hypothesis.


b. Using the asymptotic standard error assuming the null hypothesis.

23

As hiptese nulas sobre as medidas de associao, podem ser escritas genericamente como

H 0 : Med . Assoc = 0 .

24

Note que os valores calculados pelo SPSS usam o valor da estatstica de teste do Qui-Quadrado sem a
correco de continuidade (Pearson Chi-Square) adequada para este caso.
Carlos Loureno

ISCTE, 2004

17