Testedoqui Quadrado2020

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/338294452
TESTE DO QUI-QUADRADO 2020
Method · January 2020

DOI: 10.11606/s1518-
CITATIONS READS
0 172
2 authors:
Luisa Zanolli Moreno André Moreno Morcillo

University of São Paulo University of Campinas
94 PUBLICATIONS 423 CITATIONS 172 PUBLICATIONS 1,170 CITATIONS
SEE PROFILE SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Asthma control and severity View project
Leptospirose View project
All content following this page was uploaded by André Moreno Morcillo on 01 January 2020.
The user has requested enhancement of the downloaded file.

O teste do qui-quadrado como
medida de associação entre variáveis
qualitativas
LUISA ZANOLLI MORENO
Médica Veterinária, PhD em Epidemiologia Experimental Aplicada à Zoonoses

pela Universidade de São Paulo
ANDRÉ MORENO MORCILLO
Professor Associado do Departamento de Pediatria da Faculdade de Ciências

Médicas da Universidade Estadual de Campinas
Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade
Estadual de Campinas
O teste do qui-quadrado como

medida de associação entre variáveis
qualitativas
Campinas – São Paulo – Brasil

2020
É bastante frequente desejarmos saber se há associação ou dependência entre duas
variáveis qualitativas, ou seja, avaliar o comportamento de uma variável em
diferentes estratos de outra.
Segundo Magalhães e Lima (2002), duas variáveis aleatórias discretas são

independentes1 (não associadas) se a ocorrência de qualquer valor de uma delas não
mudar a chance de ocorrência dos valores da outra variável. Basta um único valor
da primeira alterando o resultado da segunda para descartar a independência.
Entre diferentes técnicas2 que podem ser usadas para avaliar a associação entre duas
variáveis qualitativas temos o teste do qui-quadrado(  2 ) proposto por Pearson em
1900.
O princípio básico do teste é comparar as frequências observadas em uma pesquisa

com aquelas que seriam esperadas (teóricas) se as duas variáveis fossem de fato
independentes.
UMA SITUAÇÃO CONCRETA
Cavalcante et al. (2019)3 realizaram um estudo de coorte não concorrente em

unidades de atenção primária e três maternidades de referência de Fortaleza (Ceará),
com o objetivo de analisar os fatores associados ao seguimento ambulatorial não
adequado de crianças notificadas por sífilis congênita.
“Os dados foram coletados de setembro de 2013 a setembro de 2016 nas fichas
de notificação e nos prontuários médicos de internamento e de seguimento
ambulatorial. Foram consideradas adequadamente seguidas as crianças que
compareceram à unidade de atenção primária ou ao ambulatório de referência no
período recomendado pelo Ministério da Saúde e realizaram os exames
preconizados.
Foram notificadas 460 crianças com sífilis congênita, das quais 332 (72,2%)
retornaram para pelo menos uma consulta e fizeram parte do estudo. Houve não
adesão às consultas subsequentes por parte de 272 (81,9%) indivíduos. As
seguintes variáveis apresentaram associação estatisticamente significativa com o
seguimento não adequado das crianças: estado civil das genitoras, número de
consultas no pré-natal, número de gestações, hemograma e radiografia de ossos
longos. Os autores concluíram que a maioria das crianças notificadas com sífilis
1
X e Y independentes ⇔ p(x,y) = p(x).p(y), ∀(x,y). Se existe pelo menos um par (𝑥0 , 𝑦0 ) tal que 𝑝(𝑥0 , 𝑦0 ) ≠
𝑝(𝑥0 ). 𝑝(𝑦0 ) então X e Y são variáveis associadas (dependentes) (Magalhães e Lima, 2002, pg. 137)
2
Por exemplo, podemos citar o Risco Relativo, a Razão de chances, a correlação de Spearman.
3
Cavalcante ANM, Araújo MAL, Nobre MA, Almeida RLF. Fatores associados ao seguimento não adequado de
crianças com sífilis congênita. Rev. Saúde Pública, 2019; 53:95. DOI: http://dx.doi.org/10.11606/s1518-
8787.2019053001284
1
congênita comparecem à atenção primária para seguimento, porém os serviços
não atendem às recomendações do Ministério da Saúde para o seguimento
adequado”
Na tabela abaixo são apresentados parte dos resultados.
Características sociodemográficas e de pré-natal em relação ao seguimento após a notificação,

Seguimento Adequado
Não Sim Total p
n % n % N
< 20 78 82,1 17 17,9 95
Idade 0,958
≥ 20 194 81,9 43 18,1 237
Estado Casada 147 78,2 41 21,8 188
0,037
Civil Solteira 122 87,1 18 12,9 140
Anos de <8 185 82,2 40 17,8 225
0,853
Estudo ≥8 83 81,4 19 18,6 102
Não 29 82,9 6 17,1 35
Pré-Natal 0,880
Sim 243 81,8 54 18,2 297
Nº de <6 134 86,5 21 13,5 155
0,042
consultas ≥6 137 77,8 39 22,2 176
Nº 1 71 74,0 25 26,0 96
0,018
gestações 1 199 85,0 35 15,0 234
p – probabilidade do teste do qui-quadrado
O princípio básico do teste do qui-quadrado é comparar as frequências observadas

(O) e as esperadas (E), avaliando se as diferenças entre elas podem ser decorrentes
do acaso.
O qui-quadrado de uma célula é calculado pela fórmula:
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 2 𝑐é𝑙𝑢𝑙𝑎 =
𝐸𝑖
O  2 de uma tabela com “k” células é calculado pela fórmula:
𝑘 𝑘
2 2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ 𝜒 𝑐é𝑙𝑢𝑙𝑎 = ∑
𝐸𝑖
𝑖=1 𝑖=1
Outra fórmula pode ser usada:
𝑘
2
𝑂𝑖2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ ( )−𝑁
𝐸𝑖
𝑖=1
Onde N é o total geral da tabela.
2
As frequências esperadas4,5 (teóricas) são calculadas a partir dos dados da tabela,
em que a frequência esperada (E) em uma determinada célula é o resultado do
produto do total de sua coluna (TC) pelo total de sua linha (TL) e dividido pelo total
geral da tabela (N).
𝑇𝐶 . 𝑇𝐿
𝐸=
𝑁
Vejamos a tabela abaixo:
Coluna 1 Coluna 2 Total
Linha 1 a b TL 1
Linha 2 c d TL 2
Total TC 1 TC 2 N
A frequência esperada da célula “a” será: E = (TL 1 . TC 1)/N

A frequência esperada da célula “b” será: E = (TL 1 . TC 2)/N
A frequência esperada da célula “c” será: E = (TL 2 . TC 1)/N
A frequência esperada da célula “d” será: E = (TL 2 . TC 2)/N
AS HIPÓTESES DE TRABALHO SÃO:
H0: não há associação entre as variáveis

H1: Há associação entre as variáveis
GRAUS DE LIBERDADE DA TABELA
Os graus de liberdade de uma tabela será o resultado do produto do número de linhas

menos 1 pelo número de colunas menos 1.
𝑔𝑙 = (𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1). (𝑙𝑖𝑛ℎ𝑎𝑠 − 1)
TOMADA DE DECISÃO
Uma vez calculado o 2 da tabela, procura-se na tabela de distribuição de 2 (página

21) o valor do 2 crítico considerando o nível de significância adotado e os graus de
liberdade (gl).
Se o 2 calculado for maior ou igual que o 2 crítico, H0 deverá ser rejeitada,

permitindo-nos concluir que há associação entre as variáveis. Na figura apresentada
a seguir temos a distribuição do qui-quadrado e a linha azul, num ponto qualquer do
4
As frequências esperadas são calculadas considerando que H0 é verdadeira, ou seja, não há associação entre as
duas variáveis.
5
Ver leitura suplementar.
3
eixo das abscissas, representa o qui-quadrado crítico, que divide a distribuição em
duas áreas: rejeição e não rejeição de H0.
Na tabela no final do texto apresentamos os valores de  crítico para =0,05.

2
Retomando o trabalho de Cavalcante et al. (2019), vamos avaliar se há associação

entre o seguimento adequado da criança e a idade da mãe. Adotaremos α = 0,05.
H0: Não há associação entre a idade da mãe e a inadequação do acompanhamento

H1: Há associação entre a idade da mãe e a inadequação do acompanhamento
Seguimento Adequado
Não Sim Total
O E O E N
< 20 78 a 17 b 95
Idade
≥ 20 194 c 43 d 237
Total 272 60 332
Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão

substituídas após o cálculo das frequências esperadas.
A frequência esperada da célula “a” será: E = (272 x 95) / 332 = 77,83

A frequência esperada da célula “b” será: E = (60 x 95) / 332 = 17,17
A frequência esperada da célula “c” será: E = (272 x 237) / 332 = 194,17
A frequência esperada da célula “d” será: E = (60 x 237) / 332 = 42,83
4
Agora podemos completar a tabela
Seguimento Adequado
Não Sim Total
O E O E N
< 20 78 77,83 17 17,17 95
Idade
≥ 20 194 194,17 43 42,83 237
Total 272 60 332
Calculando o qui-quadrado da tabela:
𝑘 𝑘
2 2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ 𝜒 𝑐é𝑙𝑢𝑙𝑎 = ∑
𝐸𝑖
𝑖=1 𝑖=1
(78 − 77,83)2 (17 − 17,17)2 (194 − 194,17)2 (43 − 42,83)2

𝜒2 = + + + = 0,0028
77,83 17,17 194,17 42,83
Poderíamos ter calculado o qui-quadrado usando outra fórmula:
𝑘
2
𝑂𝑖2
𝜒 𝑡𝑎𝑏𝑒𝑙𝑎 = ∑ ( ) − 𝑁
𝐸𝑖
𝑖=1
782 172 1942 432

𝜒2 = + + + − 332 = 0,0028
77,83 17,17 194,17 42,83
Graus de liberdade:
Como estamos analisando uma tabela com duas linhas e duas colunas temos:
gl = (2 – 1).(2 – 1) = 1
Qui-quadrado crítico:
Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o

qui-quadrado crítico é 3,84 fazendo com a área de rejeição do teste seja para valores
de qui-quadrado maiores ou iguais a 3,84.
5
Como 𝜒 2 calculado < 𝜒 2 crítico não podemos rejeitar H0, concluindo que não há
associação entre idade da mãe e a inadequação de seguimento da doença.
Avaliando o estado civil:
H0: Não há associação entre o estado civil e a inadequação do acompanhamento

H1: Há associação entre o estado civil e a inadequação do acompanhamento
Seguimento Adequado
Não Sim Total
O E O E
Estado Casada 147 a 41 b 188
Civil Solteira 122 c 18 d 140
Total 269 59 328


Agora completamos a tabela inserindo as frequências esperadas calculadas.
Seguimento Adequado
Não Sim Total
O E O E
Estado Casada 147 154,18 41 33,82 188
Civil Solteira 122 114,82 18 25,18 140
Total 269 59 328
(147 − 154,18)2 (41 − 33,82)2 (122 − 114,82)2 (18 − 25,18)2

𝜒2 = + + + = 4,36
154,18 33,82 114,82 25,18
Graus de liberdade:
Como estamos trabalhando com uma tabela com duas linhas e duas colunas temos
somente 1 grau de liberdade.
6

Como 𝜒 2 calculado > 𝜒 2 crítico podemos rejeitar H0, concluindo que há associação entre
o estado civil da mãe e a inadequação de seguimento da doença. A prevalência de
seguimento inadequado foi maior entre as solteiras (87,1%) do que nas casadas
(78,2%) e esta diferença é estatisticamente significante.
Avaliando o número de consultas no pré-natal:
Seguimento Adequado
Não Sim Total
O E O E N
Nº de <6 134 a 21 b 155
consultas ≥6 137 c 39 d 176
Total 271 60 331
H0: Não há associação entre o número de consultas e a inadequação do

acompanhamento
H1: Há associação entre o número de consultas e a inadequação do acompanhamento

7
Seguimento Adequado
Não Sim Total
O E O E N
Nº de <6 134 126,9 21 28,1 155
consultas ≥6 137 144,1 39 31,9 176
Total 271 60 331
(134 − 126,9)2 (21 − 28,1)2 (137 − 144,1)2 (39 − 31,9)2

𝜒2 = + + + = 4,12
126,9 28,1 144,1 31,9
Graus de liberdade:
Como estamos trabalhando com uma tabela com duas linhas e duas colunas temos
somente 1 grau de liberdade.

8
o número de consultas no pré-natal e a inadequação de seguimento da doença. A
prevalência de seguimento inadequado foi maior entre as mães que fizeram menos
de seis consultas no pré-natal (86,5% vs 77,8%).
Um exemplo com uma tabela maior:
Avaliar a associação entre a renda familiar per capita (salário-mínimo) e a

escolaridade do pai.
H0: Não há associação entre renda familiar e escolaridade do pai

H1: Há associação entre renda familiar e escolaridade do pai
Frequências Observadas (O)

Renda Familiar (SM)
< 0,5 0,5 |-- 1,0 1,0 |-- 2,0 ≥ 2,00 Total
≤4 536 260 80 12 888
Escolaridade
5a8 164 165 88 29 446
do pai
9 a 11 29 48 66 53 196
(anos)
superior 2 8 22 32 64
Total 731 481 256 126 1594
Frequências Esperadas (E)

Renda Familiar (SM)
< 0,5 0,5 |-- 1,0 1,0 |-- 2,0 ≥ 2,00 Total
≤4 407,2 268,0 142,6 70,2 888
Escolaridade
5a8 204,5 134,6 71,6 35,3 446
do pai
9 a 11 89,9 59,1 31,5 15,5 196
(anos)
superior 29,4 19,3 10,3 5,1 64
Total 731 481 256 126 1594
Calculando o qui-quadrado:
5362 2602 802 122 1642 1652 882 292 292 482 662 532
𝜒2 = + + + + + + + + + + +
407,2 268 142,6 70,2 204,5 134,6 71,6 35,3 89,9 59,1 31,5 15,5
22 82 222 322
+ + + + − 1594 = 495,56
29,4 19,3 10,3 5,1
𝑂2
Neste caso usamos a fórmula (𝜒 2 = ∑𝑘 ( 𝐸 ) − 𝑁) que requer menor número de cálculos,
tornando o procedimento mais fácil.
Graus de liberdade:
Temos uma tabela com 4 linhas e 4 colunas, portanto, 9 graus de liberdade.
9
Considerando α = 0,05 e 9 graus de liberdade, obtemos o valor de 16,92. Portanto,

o qui-quadrado crítico é 16,92 fazendo com a área de rejeição do teste seja para
valores de qui-quadrado maiores ou iguais a 16,92.
a escolaridade do pai e a renda familiar. Observe que entre os pais com menos de 4
anos de escolaridade 796/888 (89,6%) tem renda inferior a 1 salário mínimo,
enquanto entre aqueles com nível superior somente 10/64 (15,6%) tem a mesma
renda.
UM CASO PARTICULAR: TABELAS COM DUAS LINHAS E DUAS COLUNAS
O cálculo do  em tabelas com duas linhas e duas colunas (tabelas 2x2) pode ser
2
simplificado, trabalhando-se somente com as frequências observadas (O)
Coluna 1 Coluna 2 Total
Linha 1 a b TL 1
Linha 2 c d TL 2
Total TC 1 TC 2 N
Temos três possíveis situações:
1. Quando o número de casos estudados (N) é maior que 40:
2
(𝑎. 𝑑 − 𝑏. 𝑐)2 . 𝑁
𝜒 =
(TL1 . TL2 . TC1 . TC2)
10
2. Quando o número de casos estudados (N) é maior que 20 e menor que 40
temos que usar a correção de Yates:
𝑁 2
(|𝑎. 𝑑 − 𝑏. 𝑐| − 2 ) . 𝑁
𝜒2 =
(TL1 . TL2 . TC1 . TC2)
3. Quando o número de casos é menor ou igual a 20:
Não se pode usar o teste do qui-quadrado. O teste Exato de Fisher é a melhor

solução para avaliar a associação entre as duas variáveis.
Vejamos um dos exemplos já realizados:
Avaliar se há associação entre o número de consultas no pré-natal e adequação ao

seguimento da doença.
Adequação ao seguimento
Não Sim Total
Nº de <6 134 21 155

consultas ≥6 137 39 176
Total 271 60 331
2
(134 × 39 − 137 × 21)2 . 331
𝜒 = = 4,12
(271 × 60 × 155 × 176)
É evidente que os cálculos se tornam mais simples.
RESTRIÇÕES AO USO DO QUI-QUADRADO
Não se deve usar o teste do qui-quadrado para avaliar a associação entre duas
ou mais variáveis qualitativas se houver uma ou mais células com frequência
esperada (E) menor que 1. No caso de ocorrerem células com frequência
esperada (E) maior que 1 e menor que 5, estas não podem ocorrer em mais de
20% das células da tabela.
Uma possível solução seria agrupar linhas ou colunas, aumentando as

frequências das células. Esta técnica requer uma discussão com o pesquisador,
11
que indicará quais linhas ou colunas podem ser agrupadas, evitando assim
prejuízo na interpretação futura dos dados.
Não se deve usar o teste do qui-quadrado em tabelas com duas linhas e duas
colunas (2x2) se o número de casos for menor ou igual a 20. Nestes casos
recomenda-se o teste Exato de Fisher.
LEITURA SUPLEMENTAR
A QUESTÃO DAS FREQUÊNCIAS ESPERADAS ...
Dadas duas variáveis aleatórias A e B e considerando H0 como verdadeira, ou seja,

as variáveis não estão associadas, o cálculo das probabilidades fica da seguinte
forma:
P(A|B) = P(A) e P(B|A) = P(B)
P(A Ս B) = P(A) + P(B)
P(A Ո B) = P(A) . P(B)
Considere a tabela abaixo em que as variáveis A e B assumem duas possibilidades:

0 e 1.
Como não conhecemos a função distribuição de probabilidades de A e B, podemos

usar as frequências observadas na distribuição conjunta para estimar as
probabilidades. Sob H0 as variáveis A e B são independentes. Assim:
Variável B
Total
1 0
1 a b Tl1
Variável A
0 c d Tl2
Total Tc1 Tc2 N
P(A=1) = Tl1/N
P(A=0) = Tl2/N
P(B=1) = Tc1/N
P(B=0) = Tc2/N
P(A=1 ou B=1) = P(A=1 Ս B=1) = P(A=1) + P(B=1)= Tl1/N + Tc1/N
P(A=0 ou B=1) = P(A=0 Ս B=1) = P(A=0) + P(B=1)= Tl2/N + Tc1/N
12
P(a) = P(A=1 e B=1) = P(A=1 Ո B=1) = P(A=1) . P(B=1)= Tl1/N . Tc1/N
P(c) = P(A=0 e B=1) = P(A=0 Ո B=1) = P(A=0) . P(B=1)= Tl2/N . Tc1/N
Dessa maneira, após gerarmos a tabela de nosso interesse, podemos estimar as

probabilidades.
A Esperança ou média de uma variável com distribuição discreta é calculada pela

fórmula:
𝐸(𝑋) = ∑(𝑓(𝑥𝑖 ). 𝑛𝑖 )
A frequência esperada para uma variável X=x em N repetições será:
𝐸(𝑋 = 𝑥) = 𝑓(𝑋 = 𝑥). 𝑁
Retomando a tabela anterior, a frequência esperada de A = 1 e B = 1 é:
𝑇𝑙1 𝑇𝑐1 𝑇𝑙1 × 𝑇𝑐1

𝐸(𝐴 = 1Ո 𝐵 = 1) = . .𝑁 =
𝑁 𝑁 𝑁
A frequência esperada de A = 1 e B = 0 é:

𝐸(𝐴 = 1Ո 𝐵 = 0) = . .𝑁 =
𝑁 𝑁 𝑁

𝐸(𝐴 = 0Ո 𝐵 = 1) = . .𝑁 =
𝑁 𝑁 𝑁

𝐸(𝐴 = 0Ո 𝐵 = 0) = . .𝑁 =
𝑁 𝑁 𝑁
Portanto, para todas as tabelas, podemos calcular diretamente as frequências

esperadas sem o conhecimento de suas probabilidades usando a fórmula:
𝑇 𝑙𝑖𝑛ℎ𝑎𝑖 × 𝑇 𝑐𝑜𝑙𝑢𝑛𝑎𝑗
𝐸𝑖,𝑗 =
𝑁
O QUI-QUADRADO ...
Se considerarmos que a frequência esperada (𝐸𝑖 ) é a média esperada ou esperança

de cada célula da tabela, a somatória das diferenças entre frequências observadas e
esperadas (𝑂𝑖 − 𝐸𝑖 ) deveria expressar a diferença entre os dados observados pelo
autor e o que seria esperado considerando a independência das variáveis. No
entanto, isso não ocorre, pois sempre teremos como resultado zero, em decorrência
de que em algumas células (𝑂𝑖 − 𝐸𝑖 ) são positivas e em outras são negativas.
13
𝑘
𝑠𝑑 = ∑(𝑂𝑖 − 𝐸𝑖 ) = 0
𝑖=1
Como nosso problema é somar grandezas negativas e positivas, se elevarmos ao

quadrado todas as diferenças6 (𝑂𝑖 − 𝐸𝑖 ) elas se tornam positivas. Portanto, ficaria
assim:
𝑠𝑑 = ∑(𝑂𝑖 − 𝐸𝑖 )2 ≥ 0
𝑖=1
Ultrapassada a primeira dificuldade, ainda resta uma dúvida. Como saber se uma
determinada diferença (𝑂𝑖 − 𝐸𝑖 )2 é grande ou pequena?
A solução é padronizar a diferença observada em cada célula em relação à média

esperada, que nada mais é que a frequência esperada (𝐸𝑖 ). Assim, chegamos à
formula do qui-quadrado de Pearson.
𝑘
(𝑂𝑖 − 𝐸𝑖 )2
𝜒2 = ∑ ≥0
𝐸𝑖
𝑖=1
Quando, em todas as células temos 𝑂𝑖 = 𝐸𝑖 , o valor do qui-quadrado é zero.
Quando não há associação entre as duas variáveis, em todas as células temos 𝑂𝑖 ≅

𝐸𝑖 , e 𝑂𝑖 − 𝐸𝑖 ≅ 0. O valor do qui-quadrado tende a zero.
𝑘 𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2 (0)2
𝜒 = lim (∑ ) =∑ =0
(𝑂𝑖 −𝐸𝑖 )→0 𝐸𝑖 𝐸𝑖
𝑖=1 𝑖=1
Quando há associação entre as duas variáveis, temos células com 𝑂𝑖 ≠ 𝐸𝑖 e o valor do

qui-quadrado tende ao infinito.
𝑘 𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2 (∞)2
𝜒 = lim (∑ ) =∑ =∞
(𝑂𝑖 −𝐸𝑖 )→∞ 𝐸𝑖 𝐸𝑖
𝑖=1 𝑖=1
Em nenhuma condição, com ou sem independência, o qui-quadrado será menor que

zero.
TABELAS COM K LINHAS (K>2) E DUAS COLUNAS
Neste caso temos uma variável é dicotômica em termos de resposta que será
avaliada em diferentes estratos de outra variável. Como exemplo podemos citar tipo
de parto em relação à escolaridade da mãe ou à renda familiar.
6
Esta foi a maneira que Pearson resolveu o problema quando desenvolveu o conceito da variância
14
Scossiroli (1962)7 e Snedecor e Cochran (1980) 8 apresentam um método simplificado
que permite avaliar não somente a associação entre as duas variáveis, mas também
a homogeneidade9 das proporções das categorias. Observe na tabela abaixo que a
variável B tem duas categorias e a variável A tem “r” categorias.
Variável B
Total
B1 B2
A1 a1 b1 n1
A2 a2 b2 n2
A3 a3 b3 n3
Variável A
... ... ... ...
Ar ar br nr
Total TB1 TB2 N
Sob H0 podemos inferir que cada categoria da variável A (A1, A2, A3, ... Ar) tem a
mesma proporção de sujeitos B1 que a proporção observada para o total da tabela
(𝑝̅) que pode ser considerada a média esperada. Assim:
𝑇𝐵1 𝑇𝐵2
𝑝̅ = 𝑞̅ = = 1 − 𝑝̅
𝑁 𝑁
𝑎1 𝑎2 𝑎3 𝑎𝑟
𝑝(𝐴1 = 𝑎1) = 𝑛1 𝑝(𝐴 = 𝑎2) = 𝑛2 𝑝(𝐴3 = 𝑎3) = 𝑛3 𝑝(𝐴𝑟 = 𝑎𝑟) = 𝑛𝑟
Se não há associação entre as variáveis e os grupos são homogêneos teremos:
𝑝(𝐴1 = 𝑎1) ≅ 𝑝(𝐴2 = 𝑎2) ≅ 𝑝(𝐴3 = 𝑎3) ≅ ⋯ ≅ 𝑝(𝐴𝑟 = 𝑎𝑟) ≅ 𝑝̅

Os autores propõem a seguinte fórmula:
∑𝑟𝑖=1 𝑝(𝐴𝑖 ). 𝑎𝑖 − 𝑝̅ . 𝑇𝐵1

𝜒2 =
𝑝̅ . 𝑞̅
Esta fórmula pode ser simplificada, de maneira que se trabalha somente com as
frequências observadas:
𝑟
2
𝑎𝑖2 𝑇𝐵1
2
𝑁2
𝜒 = (∑ − ).
𝑛𝑖 𝑁 𝑇𝐵1 . 𝑇𝐵2 .
𝑖=1
Como temos r linhas e somente duas colunas, estamos trabalhando com r – 1 graus
de liberdade.
7
Scossiroli (1962) atribui a Brand e Snedecor o método.
8
Snedecor e Cochran (1980) atribuem a Snedecor e Irwin (1933) o desenvolvimento do método.
9
Zar (1999) afirma que é necessário o adequado planejamento da amostra para se avaliar a homogeneidade. Nos
casos em que selecionamos uma única amostra e, durante a análise dos dados, geramos uma tabela cruzando duas
variáveis, só poderemos falar em associação.
15
Na tabela apresentada a seguir temos a distribuição do excesso de peso em relação
à renda familiar per capita (salário-mínimo). Desejamos avaliar a associação e
homogeneidade dos dados. Para tal, vamos usar a fórmula de Brandt-Snedecor.
Renda Familiar per Excesso de Peso

capita (SM) Sim Não Total
< 0,5 58 712 770
0,5 |--- 1,0 56 439 495
1,0 |--- 2,0 35 221 256
≥ 2,0 28 101 129
Total 177 1.473 1.650
582 562 352 282 1772 16502

𝜒2 = ( + + + − ). = 26,94
770 495 256 129 1650 177 × 1473
Graus de liberdade = 4 – 1 = 3
2
𝜒𝑐𝑟í𝑡𝑖𝑐𝑜 = 7,81
Como o qui-quadrado calculado é maior que o qui-quadrado crítico rejeitamos H0,

concluindo que há associação entre o Excesso de Peso e a Renda familiar e
heterogeneidade entre as categorias de renda. Vejamos:
58
𝑝(< 0,5) = 770 = 0,07532
56
𝑝(0,5 ⟼ 1,0) = = 0,11313
495
35
𝑝(1,0 ⟼ 2,0) = = 0,13672
256
28
𝑝(≥ 0,2) = = 0,21705
129
177
𝑝̅ = = 0,10727
1650
Observe que nas três primeiras categorias de renda as proporções são próximas à
média esperada, enquanto na última categoria temos o dobro da esperada. Com este
método podemos ir um pouco além de avaliar a simples associação entre duas
variáveis.
Na tabela apresentada a seguir temos a distribuição da baixa estatura em relação à

renda familiar per capita (salário-mínimo). Desejamos avaliar a associação e
homogeneidade dos dados. Também neste caso vamos usar a fórmula de Brandt-
Snedecor.
16
Renda Familiar per Baixa Estatura
Total
capita (SM) Sim Não
< 0,5 33 737 770
0,5 |--- 1,0 S 10 485 495
1,0 |--- 2,0 5 251 256
≥ 2,0 1 128 129
Total 49 1.601 1.650
332 102 52 12 492 16502

𝜒2 = ( + + + − ). = 9,25
770 495 256 129 1650 49 × 1601
Graus de liberdade = 4 – 1 = 3
2
𝜒𝑐𝑟í𝑡𝑖𝑐𝑜 = 7,81
Como o qui-quadrado calculado é maior que o qui-quadrado crítico rejeitamos H0,
concluindo que há associação entre a Baixa estatura e a Renda familiar e há
heterogeneidade entre as categorias de renda. Vejamos as proporções:
33
𝑝(< 0,5) = = 0,04286
770
10
𝑝(0,5 ⟼ 1,0) = = 0,0202
495
5
𝑝(1,0 ⟼ 2,0) = = 0,01953
256
1
𝑝(≥ 0,2) = = 0,00775
129
49
𝑝̅ = = 0,0297
1650
Neste caso a primeira categoria de renda tem proporção 1,44 vezes maior que a
média esperada (𝑝̅ = 0,0297) e a última categoria tem proporção 73,8% menor que
a esperada.
O QUI-QUADRADO EM GRANDES TABELAS (R X C)
Calcular o qui-quadrado de uma tabela maior que duas linhas e duas colunas é
trabalhoso, pois temos que calcular muitas frequências esperadas e, posteriormente,
calcular o qui-quadrado de cada célula e somá-los.
Scossiroli (1962) descreve uma maneira bastante prática de executar a análise sem
utilizar as frequências esperadas. Considere a tabela abaixo que apresenta “r” linhas
(categorias da variável A) e “c” colunas (categorias da variável B). Em uma
determinada linha “i” vamos ter “c” colunas, sendo que podemos representar um
elemento qualquer da linha “i” e coluna “j” por “ai.j”.
17
Variável B
B1 B2 ... Bj ... Bc Total
A1 a1.1 a1.1 ... a1.j ... a1.c n1
A2 a2.1 a2.2 ... a2.j ... a2.c n2
A3 a3.1 a3.2 ... a3.j ... a3.c n3
... ... ... ... ... ... ...
Variável A
Ai ai.1 ai.2 ... ai.j ... ai.c ni
... ... ... ... ... ... ...
Ar ar.1 br.2 ... ar.j ... ar.c nr
Total TB1 TB2 ... TBJ ... TBc N
r : nº de linhas; c : nº de colunas
Para cada coluna “j” da tabela calculamos:

𝑟
𝑎𝑖.𝑗 2 1
∑ .
𝑛𝑖 𝑇𝐵𝐽
𝑖=1
O valor do qui-quadrado será dado pela fórmula:

𝑟 𝑟 𝑟
2
𝑎𝑖.1 2 1 𝑎𝑖.2 2 1 𝑎𝑖.𝑐 2 1
𝜒 = (∑ . +∑ . + ⋯+ ∑ . ).𝑁 − 𝑁
𝑛𝑖 𝑇𝐵1 𝑛𝑖 𝑇𝐵2 𝑛𝑖 𝑇𝐵𝑐
𝑖=1 𝑖=1 𝑖=1
Que é igual a:
𝑟 𝑟 𝑟
2
𝑎𝑖.1 2 𝑁 𝑎𝑖.2 2 𝑁 𝑎𝑖.𝑐 2 𝑁
𝜒 = (∑ . +∑ . + ⋯+ ∑ . )−𝑁
𝑛𝑖 𝑇𝐵1 𝑛𝑖 𝑇𝐵2 𝑛𝑖 𝑇𝐵𝑐
𝑖=1 𝑖=1 𝑖=1
Nestas tabelas teremos (r – 1).(c – 1) graus de liberdade.
Voltemos ao caso da baixa estatura do exemplo anterior.
Renda Familiar per Baixa Estatura

Total
capita (SM) Sim Não
< 0,5 33 737 770
0,5 |--- 1,0 S 10 485 495
1,0 |--- 2,0 5 251 256
≥ 2,0 1 128 129
Total 49 1.601 1.650
𝑟 𝑟
2
𝑎𝑖.1 2 𝑁 𝑎𝑖.2 2 𝑁
𝜒 = (∑ . +∑ . )−𝑁
𝑛𝑖 𝑇𝐵1 𝑛𝑖 𝑇𝐵2
𝑖=1 𝑖=1
18
Primeira coluna:
𝑎𝑖.1 2 𝑁 332 102 52 12 1650

𝑐1 = ∑𝑟𝑖=1 . 𝑐1 = ( + + + ). = 57,97609
𝑛𝑖 𝑇𝐵1 770 495 256 129 49
Segunda coluna:
𝑎𝑖.2 2 𝑁 7372 4852 2512 1282 1650

𝑐2 = ∑𝑟𝑖=1 . 𝑐2 = ( + + + ). = 1601,27472
𝑛𝑖 𝑇𝐵2 770 495 256 129 1601
Agora, calculamos o qui-quadrado:
𝜒 2 = 𝑐1 + 𝑐2 − 𝑁 = 57,97609 + 1601,27472 − 1650 = 9,25
Observe que o valor do qui-quadrado calculado é exatamente igual ao calculado pela

fórmula de Brandt-Snedecor ou pela fórmula tradicional.
Estes métodos alternativos foram desenvolvidos há muito tempo com o objetivo de

facilitar os cálculos, época em que os pesquisadores trabalhavam com calculadoras,
pois ainda não dispunham de computadores e softwares. De uma forma geral,
iniciaram estudando transformações algébricas na fórmula clássica do qui-quadrado
e conseguiram resultados muito úteis. Tinham muita criatividade e bom
conhecimento de matemática e probabilidade. Hoje temos bons computadores e
softwares, entretanto, nos falta criatividade. Aprendemos muito rapidamente a lidar
com os computadores. Apertar teclas é muito fácil e não requer o conhecimento
necessário para compreender o processo.
BIBLIOGRAFIA
Bussab WO, Morettin PA. Estatística básica. 7ªed. São Paulo: Saraiva, 2012.
Callegari-Jacques SM – Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre:

Artmed, 2003.
Conover MJ. Practical nonparametric statistics. 3th ed. New York: John Wiley & Sons
Inc., 1999.
Daniel WW – Biostatistics – A foundation for analysis in the health sciences. 6th

ed., New York: John Wiley & Sons, Inc., 1995.
Devore JL. Probabilidade e estatística para engenharia e ciências. São Paulo:

Cengage Learning, 2016.
Lowry R. Concepts & Applications of Inferential Statistics. Disponível em:

http://vassarstats.net/textbook/. Acessado em 06/10/2019.
Pearson K. On a criterion that a given system of deviations from the probable in the
case of a correlated system of variables is such that it can reasonably be supposed
to have arisen in randon sampling. Philosophical Magazine, 1900; 50:157-175.
19
Scossiroli RE. Manuale di statistica per ricercatori. Pavia: Ing. C. Olivetti & C. S.p.A,
1962.
Siegel S – Estatística não-paramétrica. Rio de Janeiro: Editora McGraw-Hill, 1979.
Snedecor GW, Cochran WG. Statistical methods. Ames, Iowa: Iowa Universiy Press,
1980.
Vieira S – Bioestatística: tópicos avançados. Rio de Janeiro: Editora Campus, 2003.
Zar JH – Biostatistical analysis. 2nd ed. Englewood Cliffs: Prentice-Hall Inc., 1999.
20
Valores de qui-quadrado crítico para =0,05
gl  2 crítico gl  2 crítico
1 3,84 16 26,30
2 5,99 17 27,59
3 7,82 18 28,87
4 9,49 19 30,14
5 11,07 20 31,41
6 12,59 21 32,67
7 14,07 22 33,92
8 15,51 23 35,17
9 16,92 24 36,42
10 18,31 25 37,65
11 19,68 26 38,88
12 21,03 27 40,11
13 22,36 28 41,34
14 23,68 29 42,56
15 25,00 30 43,77
21
View publication stats

Testedoqui Quadrado2020

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Testedoqui Quadrado2020

Enviado por

Direitos autorais:

Formatos disponíveis

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

TESTE DO QUI-QUADRADO 2020

Method · January 2020

Luisa Zanolli Moreno André Moreno Morcillo

SEE PROFILE SEE PROFILE

Asthma control and severity View project

Leptospirose View project

The user has requested enhancement of the downloaded file.

Médica Veterinária, PhD em Epidemiologia Experimental Aplicada à Zoonoses

ANDRÉ MORENO MORCILLO

Professor Associado do Departamento de Pediatria da Faculdade de Ciências

O teste do qui-quadrado como

Campinas – São Paulo – Brasil

Segundo Magalhães e Lima (2002), duas variáveis aleatórias discretas são

variáveis qualitativas temos o teste do qui-quadrado(  2 ) proposto por Pearson em

O princípio básico do teste é comparar as frequências observadas em uma pesquisa

UMA SITUAÇÃO CONCRETA

Cavalcante et al. (2019)3 realizaram um estudo de coorte não concorrente em

Na tabela abaixo são apresentados parte dos resultados.

Características sociodemográficas e de pré-natal em relação ao seguimento após a notificação,

O princípio básico do teste do qui-quadrado é comparar as frequências observadas

O qui-quadrado de uma célula é calculado pela fórmula:

O  2 de uma tabela com “k” células é calculado pela fórmula:

Outra fórmula pode ser usada:

Onde N é o total geral da tabela.

Coluna 1 Coluna 2 Total

A frequência esperada da célula “a” será: E = (TL 1 . TC 1)/N

AS HIPÓTESES DE TRABALHO SÃO:

H0: não há associação entre as variáveis

GRAUS DE LIBERDADE DA TABELA

Os graus de liberdade de uma tabela será o resultado do produto do número de linhas

𝑔𝑙 = (𝑐𝑜𝑙𝑢𝑛𝑎𝑠 − 1). (𝑙𝑖𝑛ℎ𝑎𝑠 − 1)

Uma vez calculado o 2 da tabela, procura-se na tabela de distribuição de 2 (página

Se o 2 calculado for maior ou igual que o 2 crítico, H0 deverá ser rejeitada,

Na tabela no final do texto apresentamos os valores de  crítico para =0,05.

Retomando o trabalho de Cavalcante et al. (2019), vamos avaliar se há associação

H0: Não há associação entre a idade da mãe e a inadequação do acompanhamento

Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão

A frequência esperada da célula “a” será: E = (272 x 95) / 332 = 77,83

Calculando o qui-quadrado da tabela:

(78 − 77,83)2 (17 − 17,17)2 (194 − 194,17)2 (43 − 42,83)2

Poderíamos ter calculado o qui-quadrado usando outra fórmula:

782 172 1942 432

Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o

Avaliando o estado civil:

H0: Não há associação entre o estado civil e a inadequação do acompanhamento

Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão

A frequência esperada da célula “a” será: E = (269 x 188) / 328 = 154,18

Agora completamos a tabela inserindo as frequências esperadas calculadas.

Calculando o qui-quadrado da tabela:

(147 − 154,18)2 (41 − 33,82)2 (122 − 114,82)2 (18 − 25,18)2

Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o

Avaliando o número de consultas no pré-natal:

H0: Não há associação entre o número de consultas e a inadequação do

Observe que as colunas E estão representadas pelas letras a, b, c e d, que serão

Calculando o qui-quadrado da tabela:

(134 − 126,9)2 (21 − 28,1)2 (137 − 144,1)2 (39 − 31,9)2

Considerando α = 0,05 e 1 grau de liberdade, obtemos o valor de 3,84. Portanto, o

Um exemplo com uma tabela maior:

Avaliar a associação entre a renda familiar per capita (salário-mínimo) e a

H0: Não há associação entre renda familiar e escolaridade do pai

Frequências Observadas (O)