Você está na página 1de 36

Medidas de associação entre duas variáveis

qualitativas

Hoje vamos analisar duas variáveis qualitativas


(categóricas) conjuntamente com o objetivo
de verificar se existe alguma relação entre elas.

Vamos definir uma medida de associação en-


tre duas variáveis qualitativas chamada Qui-
quadrado, denotada por χ2.

Vamos também apresentar testes de hipóteses


para verificar as hipóteses formuladas quanto
às variáveis sob investigação.

1
A análise de relacionamento entre variáveis qua-
litativas (categóricas) inclui os seguintes tópi-
cos:

- contagens das frequências observadas para


cada categoria de resposta, que são registradas
em tabelas de frequência;

- testes estatı́sticos de aderência, de independência


e de homogeneidade para verficar nossas hipóteses
de relacionamento entre as variáveis.

Para definir a medida de Qui-quadrado vamos


começar com a análise de apenas uma variável
categórica.

2
Exemplo 1: Preferência por chocolate

Uma amostra de 110 pessoas foi solicitada a


manifestar suas preferências com respeito a 4
marcas de chocolate. A distribuição de frequên-
cias das respostas obtidas no levantamento es-
tá na tabela a seguir.
chocolate A chocolate B chocolate C chocolate D total
20 60 10 20 110

Queremos verificar se algumas marcas (ou uma


marca) são preferidas em detrimento de ou-
tras.

Observe que se não há preferência por marcas,


devemos esperar que o número de pessoas por
cada resposta seja o mesmo.

É claro que numa amostra, mesmo que a hipó-


tese seja verdadeira, será muito improvável ob-
servar o mesmo número de pessoas em cada
resposta, mas se a hipótese for verdadeira, es-
ses números deverão ser próximos uns dos ou-
tros.
3
Se a hipótese de que não há preferência por
marcas for verdadeira, como são 110 pessoas,
110
devemos esperar = 27, 5 pessoas em cada
4
cela.
frequências choc. A choc. B choc. C choc. D
observadas 20 60 10 20
esperadas sob H0 27,5 27,5 27,5 27,5

A medida de Qui-quadrado χ2 que vamos


definir, compara as frequências observadas, que
denotaremos por Oi - frequência observada da
i-ésima categoria de resposta - e as frequências
esperadas sob H0, que denotaremos por Ei -
frequência esperada da i-ésima categoria de re-
sposta sob a hipótese nula.

No exemplo 1, observe que há 4 tipos de res-


posta tal que i = 1, 2, 3, 4.

4
Definição de χ2:

Suponha que existam c categorias de resposta


e que O1, O2,..., Oc são as frequências ob-
servadas, enquando que E1, E2,..., Ec são as
frequências esperadas sob a hipótese nula.

Então a medida de Qui-quadrado é definida


por
c
(Oi − Ei)2
χ2 =
X

i=1 Ei

No exemplo 1, temos

2 (60−27,5)2 (10−27,5)2 (20−27,5)2


χ2 = (20−27,5)
27,5 + 27,5 + 27,5 + 27,5

' 2, 05 + 38, 41 + 11, 14 + 2, 05 = 53, 65

5
Como avaliar a magnitude do valor amostral
de χ2?

Se a hipótese nula for verdadeira e a frequência


esperada em todas as celas é maior ou igual a
5, a estatı́stica χ2 tem uma distribuição apro-
ximada de Qui-quadrado com c − 1 graus de
liberdade.

Assim, a um nı́vel de signifcância α rejeitare-


mos H0 se o valor amostral cair na cauda supe-
rior de área α dessa distribuição como mostra
a figura a seguir.

6
No caso do exemplo 1, temos uma distribuição
aproximada de qui-quadrado com 4 − 1 = 3
graus de liberdade sob a hipótese nula. Con-
sultando o Excel, vemos que o valor crı́tico,
a um nı́vel de 5% de significância é, aproxi-
madamente, 7,815 (usando a função INVCHI
do Excel).

Logo, vemos que o valor amostral de 53,65 é


muito maior do que o valor crı́tico, indicando
que devemos rejeitar a hipótese nula de que as
frequências são iguais em todas as categorias
de resposta.

Usando o EXCEL também é fácil avaliar o p-


valor desse teste (função CHIDIST) que re-
sulta ser muito inferior a 0.0001, indicando
fortı́ssima evidência contra a hipótese nula.

7
Como usar o Bioestat para esse problema?

Entre na coluna 1 com as frequências obser-


vadas de cada cela.

Depois escolha Estatı́sticas, seguida de Qui-


quadrado, seguida de Uma amostra:aderência.

Haverá duas opções, a saber, proporções es-


peradas iguais e proporções esperadas desiguais.

Observe que no exemplo 1, nossa hipótese é de


que as proporções esperadas são iguais. Logo
deverá ser essa a nossa escolha.

8
A seguir, temos a saı́da do Bioestat

9
O Bioestat também apresenta o seguinte gráfico,
útil, para avaliarmos de onde vêm as maiores
discrepâncias.

10
Nem sempre a hipótese nula será de proporções
esperadas iguais.

Suponha que queremos verificar a hipótese de


que as proporções esperadas na distribuição de
gênero dos filhos de famı́lias com dois filhos
seja 1/4 para ambos do gênero feminino(FF),
1/4 para ambos do gênero masculino (MM) e
1/2 para filhos de gêneros diferentes(D).

Suponha também que uma amostra de 100


famı́lias com dois filhos tenha resultado na se-
guinte distribuição

FF D MM
observada 32 52 16
esperada 25 50 25

11
Usando o Bioestat nesse caso:

Pela saı́da vemos que a um nı́vel de significância


de 5%, não rejeitamos a hipótese nula. O p-
valor é aproximdadamete 7%.

Observe que nesse caso devemos digitar, numa


coluna, as frequências esperadas.

12
O gráfico desses dados pelo Bioestat é apre-
sentado a seguir.

13
O χ2 permite que se descubra se existe um
relacionamento ou associação entre duas variá-
veis categóricas, por exemplo, a associação en-
tre fumar (fumante/não fumante) e hábito de
beber (bebedor/não bebedor).

Essas informações são consideradas qualita-


tivas, pois não está se perguntando quantos
cigarros a pessoa fuma por dia ou quanta be-
bida alcoólica ela toma por dia. Simplesmente
pergunta-se se a pessoa fuma ou não e se a
pessoa bebe ou não bebida alcoólica.

Os dados nesse caso, costumam ser represen-


tados em tabelas de dupla entrada, também
conhecidas como tabelas de contingência, da
seguinte forma:

fuma? bebe não bebe


sim O11 O12
não O21 O22
14
Na tabela anterior,

Oij é a frequência observada na i-ésima linha


e j-ésima coluna.

Nesse exemplo i = 1, 2 e j = 1, 2. Ou seja


cada variável tem apenas duas categorias de
resposta.

Por essa razão esta tabela de contingência é


chamada uma tabela 2 × 2, pois existem duas
linhas e duas colunas.

Adiante estudaremos o caso mais geral de uma


tabela de contingência l × c com l linhas e c
colunas.

15
Exemplo 2: Associação entre fumar e beber

Existe um relacionamento entre os hábitos de


fumar e de beber na população de estudantes
universitários? Se não existe uma associação
significativa, nós concluı́remos que as variáveis
(ser fumante ou não e ser bebedor ou não) são
independentes.

Suponha que numa amostra aleatória de 110


estudantes universitários tenha se obtido os
seguintes resultados.

fuma? bebe não bebe


sim 50 20
não 15 25

16
Perfis-linha

Observe que podemos olhar a tabela de da-


dos de maneiras diferentes. Os perfis-linha
referem-se a uma distribuição condicional das
respostas em relação a cada linha da tabela.
Observe na tabela a seguir os perfis-linha. In-
cluı́mos também uma linha com os totais.

fuma? bebe não bebe total


sim 71,4% 28,6% 100%
não 37,5% 62,5% 100%
total 59,1% 40,9% 100%

Você diria que o perfil dos fumantes em relação


à bebida é semelhante ao perfil dos não-fumantes
em relação à bebida?

A resposta parece ser não. Percebemos da


tabela que entre os fumantes, a maioria bebe
e, entre os não fumantes, a maioria não bebe!
17
Perfis-coluna

Observe que também poderı́amos olhar os perfis-


coluna: distribuição condicional das respostas
em relação a cada coluna da tabela. Observe
na tabela a seguir os perfis-coluna. Incluı́mos
também uma coluna de totais.

fuma? bebe não bebe total


sim 76,9% 44,4% 63,6%
não 23,1% 55,6% 36,4%
total 100% 100% 100%

Você diria que o perfil dos bebedores em relação


ao hábito de fumar é semelhante ao perfil dos
não-bebedores em relação ao hábito de fumar?

Claramente não! Percebemos da tabela que


entre os bebedores, a maioria fuma e, entre os
não bebedores, a maioria não fuma!

18
Frequências esperadas sob a hipótese de
Independência

Vimos, na aula de probabilidade, que dois even-


tos A e B são independentes se

P (A ∩ B) = P (A) × P (B),

isto é, se a probabilidade de ocorrência simultâ-


nea dos dois for igual ao produto das probabi-
lidades individuais.

Para calcular as frequências esperadas sob a


hipótese de que as as variáveis hábito de fumar
e hábito de beber são independentes, usaremos
esse mesmo princı́pio.

19
Observe da tabela de frequências observadas
(escritas em forma de frequências relativas em
relação ao número total de observações) que

fuma? bebe não bebe total


50 20 70
sim 110 110 110
|{z}
pr. estimada de fumar
15 25 40
não 110 110 110
|{z}
pr. estimada de não fumar
65 45
total 1
110
|{z} 110
|{z}
pr. estimada de beber pr. estimada de não beber

20
Logo, se as variáveis são independentes espe-
ra-se que o percentual de fumantes e bebedo-
res seja
70 × 65 = 4550 ' 37, 6%
110 110 1102

Assim, o número esperado de fumantes e bebedores


sob a hipótese de independência é 37, 6% de 110 '
41, 4.

A tabela a seguir indica as proporções espe-


radas sob H0 entre parênteses. Observe que
os totais das linhas e colunas são fixos e, dada
um valor esperado, os outros são facilmente
obtidos por diferenças.

fuma? bebe não bebe


sim 50 (41,4) 20 (28,6)
não 15 (23,6) 25 (16,4)

χ2 =
(50−41,4)2 (20−28,6)2 (15−23,6)2 (25−16,4)2
41,4 + 28,6 + 23,6 + 16,4

' 1, 79 + 2, 59 + 3, 13 + 4, 51 = 12, 02
21
Não há necessidade de se preocupar com esses
cálculos, pois o Bioestat tem uma função que
faz isso para você.

Mas, antes de ver como fazer esses cálculos


pelo Bioestat temos que responder a seguinte
questão: “‘Como avaliar a magnitude do valor
amostral obtido de χ2?”

Distribuição de χ2 sob H0:

Sob a hipótese nula de que as variáveis são in-


dependentes, a distribuição de χ2 em tabelas
2×2 é aproximadamente uma qui-quadrado
com 1 grau de liberdade. Portanto, pode-
mos obter uma região crı́tica a um nı́vel de
significância fixado ou calcular o p-valor.

No caso especı́fico deste exemplo, usando o


Excel obtemos um p-valor muito pequeno in-
dicando fortı́ssima evidência contra H0, como
já tı́nhamos percebido pela análise dos perfis-
linha ou perfis-coluna.
22
Vejamos agora como usar o Bioestat para obter
os resultados do teste desse exemplo.

Estatı́sticas seguida de Qui-quadrado seguida


de Tabelas de Contingência L × C e indicando
as duas colunas que contêm os dados.

23
Da saı́da do Bioestat vemos que χ2 = 12, 121 e
que o p-valor=0,0005 é muito pequeno e, por-
tanto, rejeitamos a hipótese nula. As diferenças
do valor de χ2 nas casas decimais devem-se a
erros de arredondamento.

Portanto, concluı́mos que as variáveis hábito


de beber e de fumar são relacionadas. Pela
tabela dos perfis-linha, também podemos dizer
que a relação é do tipo: a maioria dos fu-
mantes tem o hábito de beber, enquanto que
entre os não fumantes, a maioria tende a não
beber.

24
Teste de independência em tabelas l × c

No exemplo 2, as variáveis categóricas ana-


lisadas tinham apenas duas categorias de res-
posta. No entanto, é possı́vel estudar a relação
entre duas variáveis categóricas que admitem
mais de duas categorias de resposta. Se uma
das variáveis tiver l respostas e, a outra, c res-
postas, a tabela de contingência será de di-
mensão l por c.

Nesse caso o procedimento para verificar se


as variáveis são independentes é exatamente
o mesmo que o anterior. O número de graus
de liberdade da distribuição aproximada de qui-
quadrado sob H0 é nesse caso, (l − 1) × (c − 1).

O caminho no Bioestat para realizar o teste de


independência é o mesmo.

25
Exemplo 3: Recusas a pesquisa e faixa etária

Um estudo de pessoas que se recusaram a res-


ponder perguntas de pesquisa forneceu os da-
dos amostrais selecionados aleatoriamente e
apresentados na tabela a seguir.

Ao nı́vel de significância de 1%, teste a afirma-


tiva de que a cooperação do sujeito (responde
ou recusa) é independente da faixa etária. Al-
gum grupo etário particular parece ser não co-
operativo?

26
18-21 22-29 30-39 40-49 50-59 60 ou mais
responderam 73 255 245 136 138 202
recusaram 11 20 33 16 27 49

Observe que a tabela de dados é uma tabela de contingência 2 × 6.

Vamos rodar o teste no Bioestat.

Estatı́sticas, Qui-quadrado, Tabelas de Contingência LxC.

Como o p-valor é pequeno, rejeitamos H0 , ou seja, existe relação


entre a cooperação na pesquisa e a faixa de idade.

27
O grágico a seguir mostra as distribuições das
frequências relativas por idade sob as classes
respondeu/recusou.

Olhando o gráfico é possı́vel responder que a


faixa “60 ou mais” parece a mais não coope-
rativa.

28
Testes de Homogeneidade

Em um teste de homogeneidade, testamos a


afirmativa de que populações diferentes têm a
mesma proporção de alguma caracterı́stica.

Para realizar um teste de homogeneidade, pode-


mos usar os mesmos procedimentos já apresen-
tados na aula de hoje, conforme ilustraremos
no seguinte exemplo.

29
Exemplo 4: Influência de gênero

O gênero do entrevistador tem alguma influên-


cia nas pesquisas de respostas dadas por ho-
mens?

Um artigo na revista U. S. News & World Re-


port sobre pesquisas afirmou: “Em assuntos
sensı́veis, as pessoas tendem a dar respostas
‘aceitáveis’ mais do que respostas honestas;
suas respostas podem depender do gênero ou
raça do entrevistador.”

Para apoiar essa afirmativa, forneceram-se da-


dos de uma pesquisa do Eagleton Institute,
na qual pediu-se a opinião de homens sobre a
seguinte afirmação: “O aborto é um assunto
particular que deve ser deixado para ser deci-
dido pela mulher sem intervenção do estado.”.

30
Analisaremos o efeito de gênero apenas sobre o
universo masculino. A tabela a seguir fornece
os resultados obtidos.
entrev. homem entrev. mulher
homens que concordaram 560 308
homens que discordaram 240 92

Vejamos como ficam os perfis-coluna

entrev. homem entrev. mulher total


homens que concordaram 70% (560/800) 77% (308/400) 72,3%
homens que discordaram 30% (240/800) 23% (92/400) 27,7%
total 100% 100% 100,0%

Pelos perfis-coluna, parece haver uma tendência dos homens con-


cordarem com maior chance, caso o entrevistador seja mulher.

Para validar essa conclusão, podemos realizar um teste de qui-


quadrado para tabelas de contingência.

31
Saı́da do Bioestat para o exemplo 3:

Logo, a um nı́vel de significância de 5% rejeita-


mos a hipótese nula de que as proporções de
homens que concordam com a frase são iguais
para entrevistadores homens e para entrevista-
dores mulheres, pois o p-valor é 1,06%.

32
Quando devemos usar a correção de Yates?

A correção de Yates é uma correção de con-


tinuidade por aproximar uma distribuição de
variável discreta para uma distribuição de qui-
quadrado de variável contı́nua. Ela costuma
ser recomendada quando há celas com fre-
quências esperadas menores do que 10 ou, quan-
do a tabela é 2 × 2. No entanto, só usaremos a
correção de Yates em tabelas 2 × 2, quando o
tamanho da amostra for reduzido e pelo menos
uma das celas apresentar frequência esperada
menor do que 10.

É importante lembrar que a aproximação da


distribuição de qui-quadrado é boa, desde que
não existam celas com frequências esperadas
menores do que 5.

33
Uma medida de associação entre duas va-
riáveis categóricas:

coeficiente de contingência C.

v
χ2
u
u
C=t
χ2 + n
em que n representa o número total de ob-
servações no problema.

C é um número entre 0 e 1: quanto maior é


o valor de C, maior é a associação entre as
variáveis. Um valor de C igual a zero indica
que não existe relação entre as variáveis.

No exemplo 2, o coeficiente de contingência


resultante é
s
12, 121
' 0, 315.
12, 121 + 110
34
No exemplo r 3, o coeficiente de contingência
20,271
resultante é 20,271+1205 ' 0, 13.

No exemplo r 4, o coeficiente de contingência


6,529
resultante é 1206,529 ' 0, 07.

Todos podem ser considerados significativa-


mente diferentes de zero a um nı́vel de sig-
nificância de 5%, pois nos testes realizados,
rejeitamos a hipótese de ausência de relação.

35
Referências bibliográficas:

(1) Dancey e Reidy - Estatı́stica sem Matemática


para Psicologia. Penso.

(2) Triola. Introdução à Estatı́stica. LTC.

(3) Busssab e Morettin - Estatı́stica Básica.


Editora Saraiva.

36

Você também pode gostar