Você está na página 1de 24

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/338294452

TESTE DO QUI-QUADRADO 2020

Method · January 2020


DOI: 10.11606/s1518-

CITATIONS READS

0 172

2 authors:

Luisa Zanolli Moreno André Moreno Morcillo


University of São Paulo University of Campinas
94 PUBLICATIONS   423 CITATIONS    172 PUBLICATIONS   1,170 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Asthma control and severity View project

Leptospirose View project

All content following this page was uploaded by André Moreno Morcillo on 01 January 2020.

The user has requested enhancement of the downloaded file.


O teste do qui-quadrado como
medida de associação entre variáveis
qualitativas
LUISA ZANOLLI MORENO

Médica Veterinária, PhD em Epidemiologia Experimental Aplicada à Zoonoses


pela Universidade de São Paulo

ANDRÉ MORENO MORCILLO

Professor Associado do Departamento de Pediatria da Faculdade de Ciências


Médicas da Universidade Estadual de Campinas
Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade
Estadual de Campinas

O teste do qui-quadrado como


medida de associação entre variáveis
qualitativas

Campinas – São Paulo – Brasil


2020
É bastante frequente desejarmos saber se há associação ou dependência entre duas
variáveis qualitativas, ou seja, avaliar o comportamento de uma variável em
diferentes estratos de outra.

Segundo Magalhães e Lima (2002), duas variáveis aleatórias discretas são


independentes1 (não associadas) se a ocorrência de qualquer valor de uma delas não
mudar a chance de ocorrência dos valores da outra variável. Basta um único valor
da primeira alterando o resultado da segunda para descartar a independência.

Entre diferentes técnicas2 que podem ser usadas para avaliar a associação entre duas

variáveis qualitativas temos o teste do qui-quadrado(  2 ) proposto por Pearson em

1900.

O princípio básico do teste é comparar as frequências observadas em uma pesquisa


com aquelas que seriam esperadas (teóricas) se as duas variáveis fossem de fato
independentes.

UMA SITUAÇÃO CONCRETA

Cavalcante et al. (2019)3 realizaram um estudo de coorte não concorrente em


unidades de atenção primária e três maternidades de referência de Fortaleza (Ceará),
com o objetivo de analisar os fatores associados ao seguimento ambulatorial não
adequado de crianças notificadas por sífilis congênita.

“Os dados foram coletados de setembro de 2013 a setembro de 2016 nas fichas
de notificação e nos prontuários médicos de internamento e de seguimento
ambulatorial. Foram consideradas adequadamente seguidas as crianças que
compareceram à unidade de atenção primária ou ao ambulatório de referência no
período recomendado pelo Ministério da Saúde e realizaram os exames
preconizados.
Foram notificadas 460 crianças com sífilis congênita, das quais 332 (72,2%)
retornaram para pelo menos uma consulta e fizeram parte do estudo. Houve não
adesão às consultas subsequentes por parte de 272 (81,9%) indivíduos. As
seguintes variáveis apresentaram associação estatisticamente significativa com o
seguimento não adequado das crianças: estado civil das genitoras, número de
consultas no pré-natal, número de gestações, hemograma e radiografia de ossos
longos. Os autores concluíram que a maioria das crianças notificadas com sífilis

1
X e Y independentes ⇔ p(x,y) = p(x).p(y), ∀(x,y). Se existe pelo menos um par (𝑥0 , 𝑦0 ) tal que 𝑝(𝑥0 , 𝑦0 ) ≠
𝑝(𝑥0 ). 𝑝(𝑦0 ) então X e Y são variáveis associadas (dependentes) (Magalhães e Lima, 2002, pg. 137)
2
Por exemplo, podemos citar o Risco Relativo, a Razão de chances, a correlação de Spearman.
3
Cavalcante ANM, Araújo MAL, Nobre MA, Almeida RLF. Fatores associados ao seguimento não adequado de
crianças com sífilis congênita. Rev. Saúde Pública, 2019; 53:95. DOI: http://dx.doi.org/10.11606/s1518-
8787.2019053001284

1
congênita comparecem à atenção primária para seguimento, porém os serviços
não atendem às recomendações do Ministério da Saúde para o seguimento
adequado”

Na tabela abaixo são apresentados parte dos resultados.

Características sociodemográficas e de pré-natal em relação ao seguimento após a notificação,


Seguimento Adequado
Não Sim Total p
n % n % N
< 20 78 82,1 17 17,9 95
Idade 0,958
≥ 20 194 81,9 43 18,1 237
Estado Casada 147 78,2 41 21,8 188
0,037
Civil Solteira 122 87,1 18 12,9 140
Anos de <8 185 82,2 40 17,8 225
0,853
Estudo ≥8 83 81,4 19 18,6 102
Não 29 82,9 6 17,1 35
Pré-Natal 0,880
Sim 243 81,8 54 18,2 297
Nº de <6 134 86,5 21 13,5 155
0,042
consultas ≥6 137 77,8 39 22,2 176
Nº 1 71 74,0 25 26,0 96
0,018
gestações 1 199 85,0 35 15,0 234
p – probabilidade do teste do qui-quadrado

O princípio básico do teste do qui-quadrado é comparar as frequências observadas


(O) e as esperadas (E), avaliando se as diferenças entre elas podem ser decorrentes
do acaso.

O qui-quadrado de uma célula é calculado pela fórmula:

(𝑂𝑖 − 𝐸𝑖 )2
𝜒 2 𝑐é𝑙𝑢𝑙𝑎 =
𝐸𝑖

O  2 de uma tabela com “k” células é calculado pela fórmula:

𝑘 𝑘
2 2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ 𝜒 𝑐é𝑙𝑢𝑙𝑎 = ∑
𝐸𝑖
𝑖=1 𝑖=1

Outra fórmula pode ser usada:

𝑘
2
𝑂𝑖2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ ( )−𝑁
𝐸𝑖
𝑖=1

Onde N é o total geral da tabela.

2
As frequências esperadas4,5 (teóricas) são calculadas a partir dos dados da tabela,
em que a frequência esperada (E) em uma determinada célula é o resultado do
produto do total de sua coluna (TC) pelo total de sua linha (TL) e dividido pelo total
geral da tabela (N).

𝑇𝐶 . 𝑇𝐿
𝐸=
𝑁
Vejamos a tabela abaixo:

Coluna 1 Coluna 2 Total

Linha 1 a b TL 1

Linha 2 c d TL 2

Total TC 1 TC 2 N

A frequência esperada da célula “a” será: E = (TL 1 . TC 1)/N


A frequência esperada da célula “b” será: E = (TL 1 . TC 2)/N
A frequência esperada da célula “c” será: E = (TL 2 . TC 1)/N
A frequência esperada da célula “d” será: E = (TL 2 . TC 2)/N

AS HIPÓTESES DE TRABALHO SÃO:

H0: não há associação entre as variáveis


H1: Há associação entre as variáveis

GRAUS DE LIBERDADE DA TABELA

Os graus de liberdade de uma tabela será o resultado do produto do número de linhas


menos 1 pelo número de colunas menos 1.

𝑔𝑙 = (𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1). (𝑙𝑖𝑛ℎ𝑎𝑠 − 1)

TOMADA DE DECISÃO

Uma vez calculado o 2 da tabela, procura-se na tabela de distribuição de 2 (página


21) o valor do 2 crítico considerando o nível de significância adotado e os graus de
liberdade (gl).

Se o 2 calculado for maior ou igual que o 2 crítico, H0 deverá ser rejeitada,


permitindo-nos concluir que há associação entre as variáveis. Na figura apresentada
a seguir temos a distribuição do qui-quadrado e a linha azul, num ponto qualquer do

4
As frequências esperadas são calculadas considerando que H0 é verdadeira, ou seja, não há associação entre as
duas variáveis.
5
Ver leitura suplementar.

3
eixo das abscissas, representa o qui-quadrado crítico, que divide a distribuição em
duas áreas: rejeição e não rejeição de H0.

Na tabela no final do texto apresentamos os valores de  crítico para =0,05.


2

Retomando o trabalho de Cavalcante et al. (2019), vamos avaliar se há associação


entre o seguimento adequado da criança e a idade da mãe. Adotaremos α = 0,05.

H0: Não há associação entre a idade da mãe e a inadequação do acompanhamento


H1: Há associação entre a idade da mãe e a inadequação do acompanhamento

Seguimento Adequado
Não Sim Total
O E O E N
< 20 78 a 17 b 95
Idade
≥ 20 194 c 43 d 237
Total 272 60 332

Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão


substituídas após o cálculo das frequências esperadas.

A frequência esperada da célula “a” será: E = (272 x 95) / 332 = 77,83


A frequência esperada da célula “b” será: E = (60 x 95) / 332 = 17,17
A frequência esperada da célula “c” será: E = (272 x 237) / 332 = 194,17
A frequência esperada da célula “d” será: E = (60 x 237) / 332 = 42,83

4
Agora podemos completar a tabela

Seguimento Adequado
Não Sim Total
O E O E N
< 20 78 77,83 17 17,17 95
Idade
≥ 20 194 194,17 43 42,83 237
Total 272 60 332

Calculando o qui-quadrado da tabela:

𝑘 𝑘
2 2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ 𝜒 𝑐é𝑙𝑢𝑙𝑎 = ∑
𝐸𝑖
𝑖=1 𝑖=1

(78 − 77,83)2 (17 − 17,17)2 (194 − 194,17)2 (43 − 42,83)2


𝜒2 = + + + = 0,0028
77,83 17,17 194,17 42,83

Poderíamos ter calculado o qui-quadrado usando outra fórmula:

𝑘
2
𝑂𝑖2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ ( ) − 𝑁
𝐸𝑖
𝑖=1

782 172 1942 432


𝜒2 = + + + − 332 = 0,0028
77,83 17,17 194,17 42,83

Graus de liberdade:

Como estamos analisando uma tabela com duas linhas e duas colunas temos:

gl = (2 – 1).(2 – 1) = 1

Qui-quadrado crítico:

Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o


qui-quadrado crítico é 3,84 fazendo com a área de rejeição do teste seja para valores
de qui-quadrado maiores ou iguais a 3,84.

5
Como 𝜒 2 calculado < 𝜒 2 crítico não podemos rejeitar H0, concluindo que não há
associação entre idade da mãe e a inadequação de seguimento da doença.

Avaliando o estado civil:

H0: Não há associação entre o estado civil e a inadequação do acompanhamento


H1: Há associação entre o estado civil e a inadequação do acompanhamento

Seguimento Adequado
Não Sim Total
O E O E
Estado Casada 147 a 41 b 188
Civil Solteira 122 c 18 d 140
Total 269 59 328

Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão


substituídas após o cálculo das frequências esperadas.

A frequência esperada da célula “a” será: E = (269 x 188) / 328 = 154,18


A frequência esperada da célula “b” será: E = (59 x 188) / 328 = 33,82
A frequência esperada da célula “c” será: E = (269 x 140) / 328 = 114,82
A frequência esperada da célula “d” será: E = (59 x 140) / 328 = 25,18

Agora completamos a tabela inserindo as frequências esperadas calculadas.

Seguimento Adequado
Não Sim Total
O E O E
Estado Casada 147 154,18 41 33,82 188
Civil Solteira 122 114,82 18 25,18 140
Total 269 59 328

Calculando o qui-quadrado da tabela:

(147 − 154,18)2 (41 − 33,82)2 (122 − 114,82)2 (18 − 25,18)2


𝜒2 = + + + = 4,36
154,18 33,82 114,82 25,18

Graus de liberdade:

Como estamos trabalhando com uma tabela com duas linhas e duas colunas temos
somente 1 grau de liberdade.

6
Qui-quadrado crítico:

Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o


qui-quadrado crítico é 3,84 fazendo com a área de rejeição do teste seja para valores
de qui-quadrado maiores ou iguais a 3,84.

Como 𝜒 2 calculado > 𝜒 2 crítico podemos rejeitar H0, concluindo que há associação entre
o estado civil da mãe e a inadequação de seguimento da doença. A prevalência de
seguimento inadequado foi maior entre as solteiras (87,1%) do que nas casadas
(78,2%) e esta diferença é estatisticamente significante.

Avaliando o número de consultas no pré-natal:

Seguimento Adequado
Não Sim Total
O E O E N
Nº de <6 134 a 21 b 155
consultas ≥6 137 c 39 d 176
Total 271 60 331

H0: Não há associação entre o número de consultas e a inadequação do


acompanhamento
H1: Há associação entre o número de consultas e a inadequação do acompanhamento

Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão


substituídas após o cálculo das frequências esperadas.

7
A frequência esperada da célula “a” será: E = (271 x 155) / 331 = 126,9
A frequência esperada da célula “b” será: E = (60 x 155) / 331 = 28,1
A frequência esperada da célula “c” será: E = (271 x 176) / 331 = 144,1
A frequência esperada da célula “d” será: E = (60 x 176) / 331 = 31,9

Seguimento Adequado
Não Sim Total
O E O E N
Nº de <6 134 126,9 21 28,1 155
consultas ≥6 137 144,1 39 31,9 176
Total 271 60 331

Calculando o qui-quadrado da tabela:

(134 − 126,9)2 (21 − 28,1)2 (137 − 144,1)2 (39 − 31,9)2


𝜒2 = + + + = 4,12
126,9 28,1 144,1 31,9

Graus de liberdade:

Como estamos trabalhando com uma tabela com duas linhas e duas colunas temos
somente 1 grau de liberdade.

Qui-quadrado crítico:

Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o


qui-quadrado crítico é 3,84 fazendo com a área de rejeição do teste seja para valores
de qui-quadrado maiores ou iguais a 3,84.

8
Como 𝜒 2 calculado > 𝜒 2 crítico podemos rejeitar H0, concluindo que há associação entre
o número de consultas no pré-natal e a inadequação de seguimento da doença. A
prevalência de seguimento inadequado foi maior entre as mães que fizeram menos
de seis consultas no pré-natal (86,5% vs 77,8%).

Um exemplo com uma tabela maior:

Avaliar a associação entre a renda familiar per capita (salário-mínimo) e a


escolaridade do pai.

H0: Não há associação entre renda familiar e escolaridade do pai


H1: Há associação entre renda familiar e escolaridade do pai

Frequências Observadas (O)


Renda Familiar (SM)
< 0,5 0,5 |-- 1,0 1,0 |-- 2,0 ≥ 2,00 Total
≤4 536 260 80 12 888
Escolaridade
5a8 164 165 88 29 446
do pai
9 a 11 29 48 66 53 196
(anos)
superior 2 8 22 32 64
Total 731 481 256 126 1594

Frequências Esperadas (E)


Renda Familiar (SM)
< 0,5 0,5 |-- 1,0 1,0 |-- 2,0 ≥ 2,00 Total
≤4 407,2 268,0 142,6 70,2 888
Escolaridade
5a8 204,5 134,6 71,6 35,3 446
do pai
9 a 11 89,9 59,1 31,5 15,5 196
(anos)
superior 29,4 19,3 10,3 5,1 64
Total 731 481 256 126 1594

Calculando o qui-quadrado:

5362 2602 802 122 1642 1652 882 292 292 482 662 532
𝜒2 = + + + + + + + + + + +
407,2 268 142,6 70,2 204,5 134,6 71,6 35,3 89,9 59,1 31,5 15,5
22 82 222 322
+ + + + − 1594 = 495,56
29,4 19,3 10,3 5,1
𝑂2
Neste caso usamos a fórmula (𝜒 2 = ∑𝑘 ( 𝐸 ) − 𝑁) que requer menor número de cálculos,

tornando o procedimento mais fácil.

Graus de liberdade:

Temos uma tabela com 4 linhas e 4 colunas, portanto, 9 graus de liberdade.

9
Qui-quadrado crítico:

Considerando α = 0,05 e 9 graus de liberdade, obtemos o valor de 16,92. Portanto,


o qui-quadrado crítico é 16,92 fazendo com a área de rejeição do teste seja para
valores de qui-quadrado maiores ou iguais a 16,92.

Como 𝜒 2 calculado > 𝜒 2 crítico podemos rejeitar H0, concluindo que há associação entre
a escolaridade do pai e a renda familiar. Observe que entre os pais com menos de 4
anos de escolaridade 796/888 (89,6%) tem renda inferior a 1 salário mínimo,
enquanto entre aqueles com nível superior somente 10/64 (15,6%) tem a mesma
renda.

UM CASO PARTICULAR: TABELAS COM DUAS LINHAS E DUAS COLUNAS

O cálculo do  em tabelas com duas linhas e duas colunas (tabelas 2x2) pode ser
2

simplificado, trabalhando-se somente com as frequências observadas (O)

Coluna 1 Coluna 2 Total

Linha 1 a b TL 1

Linha 2 c d TL 2

Total TC 1 TC 2 N

Temos três possíveis situações:

1. Quando o número de casos estudados (N) é maior que 40:

2
(𝑎. 𝑑 − 𝑏. 𝑐)2 . 𝑁
𝜒 =
(TL1 . TL2 . TC1 . TC2)

10
2. Quando o número de casos estudados (N) é maior que 20 e menor que 40
temos que usar a correção de Yates:

𝑁 2
(|𝑎. 𝑑 − 𝑏. 𝑐| − 2 ) . 𝑁
𝜒2 =
(TL1 . TL2 . TC1 . TC2)

3. Quando o número de casos é menor ou igual a 20:

Não se pode usar o teste do qui-quadrado. O teste Exato de Fisher é a melhor


solução para avaliar a associação entre as duas variáveis.

Vejamos um dos exemplos já realizados:

Avaliar se há associação entre o número de consultas no pré-natal e adequação ao


seguimento da doença.

Adequação ao seguimento

Não Sim Total

Nº de <6 134 21 155


consultas ≥6 137 39 176

Total 271 60 331

2
(134 × 39 − 137 × 21)2 . 331
𝜒 = = 4,12
(271 × 60 × 155 × 176)

É evidente que os cálculos se tornam mais simples.

RESTRIÇÕES AO USO DO QUI-QUADRADO

Não se deve usar o teste do qui-quadrado para avaliar a associação entre duas
ou mais variáveis qualitativas se houver uma ou mais células com frequência
esperada (E) menor que 1. No caso de ocorrerem células com frequência
esperada (E) maior que 1 e menor que 5, estas não podem ocorrer em mais de
20% das células da tabela.

Uma possível solução seria agrupar linhas ou colunas, aumentando as


frequências das células. Esta técnica requer uma discussão com o pesquisador,

11
que indicará quais linhas ou colunas podem ser agrupadas, evitando assim
prejuízo na interpretação futura dos dados.

Não se deve usar o teste do qui-quadrado em tabelas com duas linhas e duas
colunas (2x2) se o número de casos for menor ou igual a 20. Nestes casos
recomenda-se o teste Exato de Fisher.

LEITURA SUPLEMENTAR

A QUESTÃO DAS FREQUÊNCIAS ESPERADAS ...

Dadas duas variáveis aleatórias A e B e considerando H0 como verdadeira, ou seja,


as variáveis não estão associadas, o cálculo das probabilidades fica da seguinte
forma:

P(A|B) = P(A) e P(B|A) = P(B)

P(A Ս B) = P(A) + P(B)

P(A Ո B) = P(A) . P(B)

Considere a tabela abaixo em que as variáveis A e B assumem duas possibilidades:


0 e 1.

Como não conhecemos a função distribuição de probabilidades de A e B, podemos


usar as frequências observadas na distribuição conjunta para estimar as
probabilidades. Sob H0 as variáveis A e B são independentes. Assim:

Variável B
Total
1 0

1 a b Tl1
Variável A
0 c d Tl2

Total Tc1 Tc2 N

P(A=1) = Tl1/N

P(A=0) = Tl2/N

P(B=1) = Tc1/N

P(B=0) = Tc2/N

P(A=1 ou B=1) = P(A=1 Ս B=1) = P(A=1) + P(B=1)= Tl1/N + Tc1/N

P(A=0 ou B=1) = P(A=0 Ս B=1) = P(A=0) + P(B=1)= Tl2/N + Tc1/N

12
P(a) = P(A=1 e B=1) = P(A=1 Ո B=1) = P(A=1) . P(B=1)= Tl1/N . Tc1/N

P(c) = P(A=0 e B=1) = P(A=0 Ո B=1) = P(A=0) . P(B=1)= Tl2/N . Tc1/N

Dessa maneira, após gerarmos a tabela de nosso interesse, podemos estimar as


probabilidades.

A Esperança ou média de uma variável com distribuição discreta é calculada pela


fórmula:

𝐸(𝑋) = ∑(𝑓(𝑥𝑖 ). 𝑛𝑖 )

A frequência esperada para uma variável X=x em N repetições será:

𝐸(𝑋 = 𝑥) = 𝑓(𝑋 = 𝑥). 𝑁

Retomando a tabela anterior, a frequência esperada de A = 1 e B = 1 é:

𝑇𝑙1 𝑇𝑐1 𝑇𝑙1 × 𝑇𝑐1


𝐸(𝐴 = 1Ո 𝐵 = 1) = . .𝑁 =
𝑁 𝑁 𝑁

A frequência esperada de A = 1 e B = 0 é:

𝑇𝑙1 𝑇𝑐2 𝑇𝑙1 × 𝑇𝑐2


𝐸(𝐴 = 1Ո 𝐵 = 0) = . .𝑁 =
𝑁 𝑁 𝑁

A frequência esperada de A = 0 e B = 1 é:

𝑇𝑙2 𝑇𝑐1 𝑇𝑙2 × 𝑇𝑐1


𝐸(𝐴 = 0Ո 𝐵 = 1) = . .𝑁 =
𝑁 𝑁 𝑁

A frequência esperada de A = 0 e B = 0 é:

𝑇𝑙2 𝑇𝑐2 𝑇𝑙2 × 𝑇𝑐2


𝐸(𝐴 = 0Ո 𝐵 = 0) = . .𝑁 =
𝑁 𝑁 𝑁

Portanto, para todas as tabelas, podemos calcular diretamente as frequências


esperadas sem o conhecimento de suas probabilidades usando a fórmula:

𝑇 𝑙𝑖𝑛ℎ𝑎𝑖 × 𝑇 𝑐𝑜𝑙𝑢𝑛𝑎𝑗
𝐸𝑖,𝑗 =
𝑁

O QUI-QUADRADO ...

Se considerarmos que a frequência esperada (𝐸𝑖 ) é a média esperada ou esperança


de cada célula da tabela, a somatória das diferenças entre frequências observadas e
esperadas (𝑂𝑖 − 𝐸𝑖 ) deveria expressar a diferença entre os dados observados pelo
autor e o que seria esperado considerando a independência das variáveis. No
entanto, isso não ocorre, pois sempre teremos como resultado zero, em decorrência
de que em algumas células (𝑂𝑖 − 𝐸𝑖 ) são positivas e em outras são negativas.

13
𝑘

𝑠𝑑 = ∑(𝑂𝑖 − 𝐸𝑖 ) = 0
𝑖=1

Como nosso problema é somar grandezas negativas e positivas, se elevarmos ao


quadrado todas as diferenças6 (𝑂𝑖 − 𝐸𝑖 ) elas se tornam positivas. Portanto, ficaria
assim:

𝑠𝑑 = ∑(𝑂𝑖 − 𝐸𝑖 )2 ≥ 0
𝑖=1

Ultrapassada a primeira dificuldade, ainda resta uma dúvida. Como saber se uma
determinada diferença (𝑂𝑖 − 𝐸𝑖 )2 é grande ou pequena?

A solução é padronizar a diferença observada em cada célula em relação à média


esperada, que nada mais é que a frequência esperada (𝐸𝑖 ). Assim, chegamos à
formula do qui-quadrado de Pearson.

𝑘
(𝑂𝑖 − 𝐸𝑖 )2
𝜒2 = ∑ ≥0
𝐸𝑖
𝑖=1

Quando, em todas as células temos 𝑂𝑖 = 𝐸𝑖 , o valor do qui-quadrado é zero.

Quando não há associação entre as duas variáveis, em todas as células temos 𝑂𝑖 ≅


𝐸𝑖 , e 𝑂𝑖 − 𝐸𝑖 ≅ 0. O valor do qui-quadrado tende a zero.

𝑘 𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2 (0)2
𝜒 = lim (∑ ) =∑ =0
(𝑂𝑖 −𝐸𝑖 )→0 𝐸𝑖 𝐸𝑖
𝑖=1 𝑖=1

Quando há associação entre as duas variáveis, temos células com 𝑂𝑖 ≠ 𝐸𝑖 e o valor do


qui-quadrado tende ao infinito.

𝑘 𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2 (∞)2
𝜒 = lim (∑ ) =∑ =∞
(𝑂𝑖 −𝐸𝑖 )→∞ 𝐸𝑖 𝐸𝑖
𝑖=1 𝑖=1

Em nenhuma condição, com ou sem independência, o qui-quadrado será menor que


zero.

TABELAS COM K LINHAS (K>2) E DUAS COLUNAS

Neste caso temos uma variável é dicotômica em termos de resposta que será
avaliada em diferentes estratos de outra variável. Como exemplo podemos citar tipo
de parto em relação à escolaridade da mãe ou à renda familiar.

6
Esta foi a maneira que Pearson resolveu o problema quando desenvolveu o conceito da variância

14
Scossiroli (1962)7 e Snedecor e Cochran (1980) 8 apresentam um método simplificado
que permite avaliar não somente a associação entre as duas variáveis, mas também
a homogeneidade9 das proporções das categorias. Observe na tabela abaixo que a
variável B tem duas categorias e a variável A tem “r” categorias.

Variável B
Total
B1 B2
A1 a1 b1 n1
A2 a2 b2 n2
A3 a3 b3 n3
Variável A
... ... ... ...
Ar ar br nr
Total TB1 TB2 N

Sob H0 podemos inferir que cada categoria da variável A (A1, A2, A3, ... Ar) tem a
mesma proporção de sujeitos B1 que a proporção observada para o total da tabela
(𝑝̅) que pode ser considerada a média esperada. Assim:

𝑇𝐵1 𝑇𝐵2
𝑝̅ = 𝑞̅ = = 1 − 𝑝̅
𝑁 𝑁
𝑎1 𝑎2 𝑎3 𝑎𝑟
𝑝(𝐴1 = 𝑎1) = 𝑛1 𝑝(𝐴 = 𝑎2) = 𝑛2 𝑝(𝐴3 = 𝑎3) = 𝑛3 𝑝(𝐴𝑟 = 𝑎𝑟) = 𝑛𝑟

Se não há associação entre as variáveis e os grupos são homogêneos teremos:

𝑝(𝐴1 = 𝑎1) ≅ 𝑝(𝐴2 = 𝑎2) ≅ 𝑝(𝐴3 = 𝑎3) ≅ ⋯ ≅ 𝑝(𝐴𝑟 = 𝑎𝑟) ≅ 𝑝̅


Os autores propõem a seguinte fórmula:

∑𝑟𝑖=1 𝑝(𝐴𝑖 ). 𝑎𝑖 − 𝑝̅ . 𝑇𝐵1


𝜒2 =
𝑝̅ . 𝑞̅
Esta fórmula pode ser simplificada, de maneira que se trabalha somente com as
frequências observadas:
𝑟
2
𝑎𝑖2 𝑇𝐵1
2
𝑁2
𝜒 = (∑ − ).
𝑛𝑖 𝑁 𝑇𝐵1 . 𝑇𝐵2 .
𝑖=1

Como temos r linhas e somente duas colunas, estamos trabalhando com r – 1 graus
de liberdade.

7
Scossiroli (1962) atribui a Brand e Snedecor o método.
8
Snedecor e Cochran (1980) atribuem a Snedecor e Irwin (1933) o desenvolvimento do método.
9
Zar (1999) afirma que é necessário o adequado planejamento da amostra para se avaliar a homogeneidade. Nos
casos em que selecionamos uma única amostra e, durante a análise dos dados, geramos uma tabela cruzando duas
variáveis, só poderemos falar em associação.

15
Na tabela apresentada a seguir temos a distribuição do excesso de peso em relação
à renda familiar per capita (salário-mínimo). Desejamos avaliar a associação e
homogeneidade dos dados. Para tal, vamos usar a fórmula de Brandt-Snedecor.

Renda Familiar per Excesso de Peso


capita (SM) Sim Não Total
< 0,5 58 712 770
0,5 |--- 1,0 56 439 495
1,0 |--- 2,0 35 221 256
≥ 2,0 28 101 129
Total 177 1.473 1.650

582 562 352 282 1772 16502


𝜒2 = ( + + + − ). = 26,94
770 495 256 129 1650 177 × 1473

Graus de liberdade = 4 – 1 = 3
2
𝜒𝑐𝑟í𝑡𝑖𝑐𝑜 = 7,81

Como o qui-quadrado calculado é maior que o qui-quadrado crítico rejeitamos H0,


concluindo que há associação entre o Excesso de Peso e a Renda familiar e
heterogeneidade entre as categorias de renda. Vejamos:

58
𝑝(< 0,5) = 770 = 0,07532
56
𝑝(0,5 ⟼ 1,0) = = 0,11313
495
35
𝑝(1,0 ⟼ 2,0) = = 0,13672
256
28
𝑝(≥ 0,2) = = 0,21705
129
177
𝑝̅ = = 0,10727
1650
Observe que nas três primeiras categorias de renda as proporções são próximas à
média esperada, enquanto na última categoria temos o dobro da esperada. Com este
método podemos ir um pouco além de avaliar a simples associação entre duas
variáveis.

Na tabela apresentada a seguir temos a distribuição da baixa estatura em relação à


renda familiar per capita (salário-mínimo). Desejamos avaliar a associação e
homogeneidade dos dados. Também neste caso vamos usar a fórmula de Brandt-
Snedecor.

16
Renda Familiar per Baixa Estatura
Total
capita (SM) Sim Não
< 0,5 33 737 770
0,5 |--- 1,0 S 10 485 495
1,0 |--- 2,0 5 251 256
≥ 2,0 1 128 129
Total 49 1.601 1.650

332 102 52 12 492 16502


𝜒2 = ( + + + − ). = 9,25
770 495 256 129 1650 49 × 1601
Graus de liberdade = 4 – 1 = 3

2
𝜒𝑐𝑟í𝑡𝑖𝑐𝑜 = 7,81
Como o qui-quadrado calculado é maior que o qui-quadrado crítico rejeitamos H0,
concluindo que há associação entre a Baixa estatura e a Renda familiar e há
heterogeneidade entre as categorias de renda. Vejamos as proporções:

33
𝑝(< 0,5) = = 0,04286
770
10
𝑝(0,5 ⟼ 1,0) = = 0,0202
495
5
𝑝(1,0 ⟼ 2,0) = = 0,01953
256
1
𝑝(≥ 0,2) = = 0,00775
129
49
𝑝̅ = = 0,0297
1650
Neste caso a primeira categoria de renda tem proporção 1,44 vezes maior que a
média esperada (𝑝̅ = 0,0297) e a última categoria tem proporção 73,8% menor que
a esperada.

O QUI-QUADRADO EM GRANDES TABELAS (R X C)

Calcular o qui-quadrado de uma tabela maior que duas linhas e duas colunas é
trabalhoso, pois temos que calcular muitas frequências esperadas e, posteriormente,
calcular o qui-quadrado de cada célula e somá-los.

Scossiroli (1962) descreve uma maneira bastante prática de executar a análise sem
utilizar as frequências esperadas. Considere a tabela abaixo que apresenta “r” linhas
(categorias da variável A) e “c” colunas (categorias da variável B). Em uma
determinada linha “i” vamos ter “c” colunas, sendo que podemos representar um
elemento qualquer da linha “i” e coluna “j” por “ai.j”.

17
Variável B
B1 B2 ... Bj ... Bc Total
A1 a1.1 a1.1 ... a1.j ... a1.c n1
A2 a2.1 a2.2 ... a2.j ... a2.c n2
A3 a3.1 a3.2 ... a3.j ... a3.c n3
... ... ... ... ... ... ...
Variável A
Ai ai.1 ai.2 ... ai.j ... ai.c ni
... ... ... ... ... ... ...
Ar ar.1 br.2 ... ar.j ... ar.c nr
Total TB1 TB2 ... TBJ ... TBc N
r : nº de linhas; c : nº de colunas

Para cada coluna “j” da tabela calculamos:


𝑟
𝑎𝑖.𝑗 2 1
∑ .
𝑛𝑖 𝑇𝐵𝐽
𝑖=1

O valor do qui-quadrado será dado pela fórmula:


𝑟 𝑟 𝑟
2
𝑎𝑖.1 2 1 𝑎𝑖.2 2 1 𝑎𝑖.𝑐 2 1
𝜒 = (∑ . +∑ . + ⋯+ ∑ . ).𝑁 − 𝑁
𝑛𝑖 𝑇𝐵1 𝑛𝑖 𝑇𝐵2 𝑛𝑖 𝑇𝐵𝑐
𝑖=1 𝑖=1 𝑖=1

Que é igual a:
𝑟 𝑟 𝑟
2
𝑎𝑖.1 2 𝑁 𝑎𝑖.2 2 𝑁 𝑎𝑖.𝑐 2 𝑁
𝜒 = (∑ . +∑ . + ⋯+ ∑ . )−𝑁
𝑛𝑖 𝑇𝐵1 𝑛𝑖 𝑇𝐵2 𝑛𝑖 𝑇𝐵𝑐
𝑖=1 𝑖=1 𝑖=1

Nestas tabelas teremos (r – 1).(c – 1) graus de liberdade.

Voltemos ao caso da baixa estatura do exemplo anterior.

Renda Familiar per Baixa Estatura


Total
capita (SM) Sim Não
< 0,5 33 737 770
0,5 |--- 1,0 S 10 485 495
1,0 |--- 2,0 5 251 256
≥ 2,0 1 128 129
Total 49 1.601 1.650

𝑟 𝑟
2
𝑎𝑖.1 2 𝑁 𝑎𝑖.2 2 𝑁
𝜒 = (∑ . +∑ . )−𝑁
𝑛𝑖 𝑇𝐵1 𝑛𝑖 𝑇𝐵2
𝑖=1 𝑖=1

18
Primeira coluna:

𝑎𝑖.1 2 𝑁 332 102 52 12 1650


𝑐1 = ∑𝑟𝑖=1 . 𝑐1 = ( + + + ). = 57,97609
𝑛𝑖 𝑇𝐵1 770 495 256 129 49

Segunda coluna:

𝑎𝑖.2 2 𝑁 7372 4852 2512 1282 1650


𝑐2 = ∑𝑟𝑖=1 . 𝑐2 = ( + + + ). = 1601,27472
𝑛𝑖 𝑇𝐵2 770 495 256 129 1601

Agora, calculamos o qui-quadrado:

𝜒 2 = 𝑐1 + 𝑐2 − 𝑁 = 57,97609 + 1601,27472 − 1650 = 9,25

Observe que o valor do qui-quadrado calculado é exatamente igual ao calculado pela


fórmula de Brandt-Snedecor ou pela fórmula tradicional.

Estes métodos alternativos foram desenvolvidos há muito tempo com o objetivo de


facilitar os cálculos, época em que os pesquisadores trabalhavam com calculadoras,
pois ainda não dispunham de computadores e softwares. De uma forma geral,
iniciaram estudando transformações algébricas na fórmula clássica do qui-quadrado
e conseguiram resultados muito úteis. Tinham muita criatividade e bom
conhecimento de matemática e probabilidade. Hoje temos bons computadores e
softwares, entretanto, nos falta criatividade. Aprendemos muito rapidamente a lidar
com os computadores. Apertar teclas é muito fácil e não requer o conhecimento
necessário para compreender o processo.

BIBLIOGRAFIA

Bussab WO, Morettin PA. Estatística básica. 7ªed. São Paulo: Saraiva, 2012.

Callegari-Jacques SM – Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre:


Artmed, 2003.

Conover MJ. Practical nonparametric statistics. 3th ed. New York: John Wiley & Sons
Inc., 1999.

Daniel WW – Biostatistics – A foundation for analysis in the health sciences. 6th


ed., New York: John Wiley & Sons, Inc., 1995.

Devore JL. Probabilidade e estatística para engenharia e ciências. São Paulo:


Cengage Learning, 2016.

Lowry R. Concepts & Applications of Inferential Statistics. Disponível em:


http://vassarstats.net/textbook/. Acessado em 06/10/2019.

Pearson K. On a criterion that a given system of deviations from the probable in the
case of a correlated system of variables is such that it can reasonably be supposed
to have arisen in randon sampling. Philosophical Magazine, 1900; 50:157-175.

19
Scossiroli RE. Manuale di statistica per ricercatori. Pavia: Ing. C. Olivetti & C. S.p.A,
1962.

Siegel S – Estatística não-paramétrica. Rio de Janeiro: Editora McGraw-Hill, 1979.

Snedecor GW, Cochran WG. Statistical methods. Ames, Iowa: Iowa Universiy Press,
1980.

Vieira S – Bioestatística: tópicos avançados. Rio de Janeiro: Editora Campus, 2003.

Zar JH – Biostatistical analysis. 2nd ed. Englewood Cliffs: Prentice-Hall Inc., 1999.

20
Valores de qui-quadrado crítico para =0,05

gl  2 crítico gl  2 crítico

1 3,84 16 26,30

2 5,99 17 27,59

3 7,82 18 28,87

4 9,49 19 30,14

5 11,07 20 31,41

6 12,59 21 32,67

7 14,07 22 33,92

8 15,51 23 35,17

9 16,92 24 36,42

10 18,31 25 37,65

11 19,68 26 38,88

12 21,03 27 40,11

13 22,36 28 41,34

14 23,68 29 42,56

15 25,00 30 43,77

21

View publication stats

Você também pode gostar