Você está na página 1de 18

Bioestatística

Testes de Hipótese para Dados Nominais

Responsável pelo Conteúdo:


Prof. Dr. Philippe Alexandre Divina Petersen

Revisão Textual:
Prof. Me. Luciano Vieira Francisco
Testes de Hipótese
para Dados Nominais

• Generalidades sobre Testes de Hipóteses;


• Tabelas de Contingência;
• A Distribuição Qui-Quadrado (χ²);
• Teste Exato de Fisher;
• Entendendo o Significado Real do Resultado de um Teste de Hipótese.


OBJETIVO

DE APRENDIZADO
• Abordar os principais métodos estatísticos quando se deseja trabalhar com dados nominais.
UNIDADE Testes de Hipótese para Dados Nominais

Generalidades sobre Testes de Hipóteses


Muitas vezes o estudante de Bioestatística se deparará com testes de hipóteses que
utilizam variáveis não paramétricas do tipo nominal ou dicotômica. Podemos citar como
exemplo a comparação entre variáveis qualitativas arranjadas em duas ou mais catego-
rias bem definidas como uma doença ou cura, sobrevida ou morte. Cada indivíduo deste
estudo será classificado em somente uma das categorias e podemos utilizar a distribui-
ção qui-quadrado (χ²) para analisar as frequências relativas ou absolutas. Os testes do
qui-quadrado, de probabilidade exata de Fisher e o teste do qui-quadrado de McNemar
são os mais utilizados na análise dados não paramétricos na área das Ciências da Saúde.

A aplicação dos testes que estudaremos nesta Unidade necessitam da utilização da


chamada tabela de contingência, que serve para facilitar a interpretação dos resultados
e cálculos obtidos pelos testes. Os valores observados das variáveis estudadas são distri-
buídos na tabela de tal forma que se permite comparar os grupos em estudo e avaliar a
existência de elementos que estabeleçam uma associação entre tais grupos.

Tabelas de Contingência
As tabelas de contingência são utilizadas principalmente para registrar e analisar a re-
lação entre duas ou mais variáveis dicotômicas. Desta forma, os testes de hipóteses que
trataremos nesta oportunidade podem ser avaliados através desta tabela além de outras
análises de interesse em estatística – tais como análises de sensibilidade e especificidade
para os testes de rastreamento de diagnóstico.

Normalmente, uma tabela de contingência é constituída por duas linhas (l) e duas
colunas (c), as quais formam, pelas suas intersecções, quatro células que, por convenção,
são designadas pelas letras a, b, c, d. Na Tabela 1 é mostrado um exemplo de contin-
gência padrão:

Tabela 1 – Contingência 2 × 2 padrão


Candidato A Candidato B Total
Masculino 32 (a) 18 (c) 50 (a + c)
Feminino 28 (b) 22 (d) 50 (b + d)
Total 60 (a + b) 40 (c + d) 100 (a + b + c + d)

Note que na Tabela 1 são apresentados os dados a respeito dos votos de dois can-
didatos em uma eleição recente dentre uma amostragem de 100 eleitores. Podemos
observar que a Tabela de contingência apresentada correlaciona as respostas por gênero
e voto. Tradicionalmente, os valores dos grupos testados são distribuídos nas linhas da
tabela e a ordem de alocação, seja na primeira ou segunda linha, não altera o valor do
teste. Por outro lado, os valores para o desfecho esperado no estudo devem ser aloca-
dos, tomando-se como referência as colunas da tabela.

8
Um exemplo de tabela de contingência para bioestatística é apresentado na Tabela 2.
Neste estudo caso-controle, dois grupos de pacientes foram acompanhados quanto à
incidência de câncer de pulmão associado ao tabagismo. No grupo de fumantes, cons-
tituído por 100 indivíduos, a incidência de câncer ocorreu em 28 pacientes, enquanto
no grupo controle (não fumantes), constituído por 200 pacientes, a incidência foi igual
a 16 casos. Assim, a tabela de contingência para este estudo-caso ficaria desta forma:

Tabela 2 – Contingência 2 × 2 padrão para um estudo do tipo caso-controle


Câncer sim Câncer não Total
Tabagismo sim 28 (28%) 72 (72%) 100 (100%)
Tabagismo não 16 (8%) 184 (92%) 200 (100%)
Total 44 (14,7%) 256 (85,3%) 300 (300%)

Avaliando a Tabela 2, observa-se que além dos valores absolutos de cada célula, temos
as porcentagens dos valores observados em cada um dos grupos no estudo. A ideia de
inserir as porcentagens é facilitar o entendimento através da simplificação da compa-
ração em relação às incidências nos diferentes grupos. Da mesma forma, a soma das
porcentagens (100%) nos totais de cada categoria facilita para o leitor as relações em que
o total da porcentagem foi calculada. Na margem inferior, colocam-se as porcentagens
relacionadas ao desfecho que, igualmente, deve somar 100%.

Observe também que, na Tabela, a incidência de câncer parece ter sido maior no
grupo de pacientes sujeitos ao fator de risco tabagismo, porém, são necessários testes
estatísticos para que essas conclusões iniciais possam ser confirmadas.

A Distribuição Qui-Quadrado (χ²)


A distribuição do qui-quadrado é o modelo de inferência estatística mais apropriado
para comparar variáveis qualitativas distribuídas em duas ou mais categorias. A distri-
buição qui-quadrado é normalmente empregada para verificar, mediante a aplicação do
teste do qui-quadrado (χ²), a diferença estatisticamente significante entre os valores da
frequência observada (O) de um determinado evento e a frequência com que ele é espe-
rado (E). Esta distribuição fornece a probabilidade com que as diferenças entre os valores
observados e esperados ocorreriam somente em razão do acaso.

Essa distribuição corresponde a uma “família” de curvas cuja forma varia de acordo
com o nível de significância (nível α) estipulado para o teste e com o número de grupos
comparados. Porém, na prática, é geralmente representada por uma curva assimétrica,
inclinada à direita, cuja assimetria diminui à medida que aumenta o número de catego-
rias comparadas, as quais determinam os graus de liberdade (gl) do teste.

A curva começa sempre no valor zero e apresenta somente valores positivos, sendo a
média da distribuição igual ao número de graus de liberdade, o qual é calculado, para o
teste do qui-quadrado da independência, pela equação gl= n − 1 . A Figura 1 representa
a forma geral da curva para o teste de qui-quadrado para α = 0,05 e gl = 1:

9
9
UNIDADE Testes de Hipótese para Dados Nominais

Figura 1 – Representação típica para a distribuição em qui-quadrado para α = 0,05 e gl = 1


Fonte: FONTENELLES, 2012

Se aumentarmos o valor do grau de liberdade, o valor da média se deslocará para a


direita, podendo-se dizer que valores elevados ao grau de liberdade tornarão a curva nor-
mal, de modo que o teste de qui-quadrado com a região de rejeição será unilateral à direita.

O cálculo do valor de qui-quadrado poderá ser definido como (FONTELLES, 2012):

(O − E )
2

χ =∑ 2

Em que O corresponde às contagens observadas e E às contagens esperadas. No


exemplo a seguir será fácil entender a utilização destas contagens, sendo a base para
utilizar nos estudos dos testes:

Tabela 3 – Contingência 2 × 2 padrão para um estudo do tipo caso-controle do Exemplo 2


Câncer sim Câncer não Total
Tabagismo sim 28 72 100
Tabagismo não 16 184 200
Total 44 256 300

• Passo 1: calcular as contagens por linha e coluna, pela relação:

total da linha
=El ,c × total da coluna
total do estudo

l , c que estão juntos a E são as posições da linha e coluna utilizadas. Desta forma,
tem-se:

Linha 1, Coluna 1 Linha 1, Coluna 2

100 100
E1,2 = × 44 = 15 E1,2 = × 256 = 85
300 300
Linha 2, Coluna 1 Linha 2, Coluna 2

200 200
E2,1 = × 44 = 29 E2,2 = × 256 = 171
300 300

10
• Passo 2: calcular o percentual de cada célula da Tabela da seguinte forma – para
comparação com as frequências relativas:

total da célula
=Pl ,c ×100
total da linha
Assim:

Linha 1, Coluna 1 Linha 1, Coluna 2

28 72
P1,2 = ×100 = 28% P1,2 = ×100 = 72%
100 100
Linha 2, Coluna 1 Linha 2, Coluna 2

16 184
P2,1 = ×100 = 8% E2,2 = ×100 = 92%
200 200

• Passo 3: calcular o qui-quadrado conforme a relação para cada célula:

(O − E )
2

χ =∑
2

E
Porém, a Tabela 4 se tornará útil na sua construção, pois apresenta como colocar os
dados e calcular os valores intermediários de modo a obter o valor final de qui-quadrado:

Tabela 4 – Cálculos do Exemplo 3

(O − E )
2
Posição Observado Esperado
(O − E )
2
O−E
lilnha/coluna (O) (E) E
1,1 28 15 13 169 11,2
1,2 72 85 –13 169 2,0
2,1 16 29 –13 169 5,8
2,2 184 171 13 169 1,0
Soma 300 300 0 676 20,0

O valor em destaque é o qui-quadrado ( χ ), com o qual poderão ser aplicados três


2

testes de hipótese (FONTELLES, 2012), ou seja, teste do qui-quadrado de:


• Independência: se existe associação entre as variáveis qualitativas;
• Homogeneidade: comparação de duas populações;
• Aderência: se os dados apresentados estão de acordo com a distribuição proposta.

O número de graus de liberdade a ser utilizado neste caso é:

gl
= ( linhas − 1) ⋅ ( colunas − 1)
Utilizaremos o Exemplo anterior a fim de, aplicando os dois primeiros testes de qui-
-quadrado, verificarmos a independência e homogeneidade.

11
11
UNIDADE Testes de Hipótese para Dados Nominais

Para o teste de independência consideraremos que não há diferenças significativas da


incidência de câncer com o tabagismo em um nível de significância α = 0, 05 . Calculando
o número de graus de liberdade, temos que:

gl = ( 2 − 1) ⋅ ( 2 − 1) = 1

E consultando a seguinte Tabela (Figura 2), nota-se que:

χ 2 = 3, 481

Figura 2 – Valor de qui-quadrado para α = 0,05 e gl = 1


Fonte: est.uff.br

As condições de teste são as seguintes:


χ calculado
2
< χ tabelado
2
: aceitação da hipótese.
χ calculado
2
≥ χ tabelado
2
: rejeição.

Para o exercício, o valor de qui-quadrado calculado foi 20, enquanto o da Tabela foi
3,841. Dessa forma, rejeita-se a hipótese nula, de modo que existem diferenças entre a
incidência de câncer devido ao tabagismo.

Para o teste de homogeneidade a ideia é que não haja diferença entre as populações,
ou seja, a incidência de câncer entre pacientes expostos ao tabagismo e aqueles que não
estão expostos é a mesma. Pelos cálculos apresentados, percebe-se que não existem di-
ferenças significativas entre as populações, portanto, a exposição ao tabagismo aumenta
a incidência de câncer.

Teste Exato de Fisher


O teste exato de Fisher é aplicado quando o número de observações esperadas (E) é
menor que 5 e o número de indivíduos estudados é inferior a 20. A expressão para o
cálculo do teste baseia-se na probabilidade das combinações possíveis de acordo com
as observações.

P=
( a + b )!( c + d )!( a + c )!( b + d )!
n !a !b !c !d !
Ademais, segue a Tabela 5 para lhe ajudar quanto à resolução dos exercícios:

12
Tabela 5 – Como utilizar o teste de Fisher
Variável 1 Variável 2 Total
Grupo 1 A b a+b
Grupo 2 C d c+d
Total a+c b+d a+b+c+d

O Exemplo anterior foi repetido, porém, agora com 20 pacientes divididos da


seguinte forma:

Tabela 6 – Como utilizar o teste de Fisher


Câncer sim Câncer não Total
Tabagismo sim 3 7 10
Tabagismo não 1 9 10
Total 4 16 20

Ao resolver os exercícios, consideraremos as probabilidades de as respostas variarem,


ou seja, de que os resultados vistos possam ser alterados – eis a sequência de cálculo,
iniciando-se pelos resultados da Tabela e considerando α = 0,05.

Tabela 7
Câncer sim Câncer não Total
P=
( a + b )!( c + d )!( a + c )!( b + d )!
3 7 10 n !a !b !c !d !
1 9
=P
10 (=
10 ) !(10 ) !( 4 ) !(16 ) !
0, 2476
4 16 20 20!3!7!1!9!

Em seguida, verificamos as alterações dos resultados, tais como:

Tabela 8
Câncer sim Câncer não Total
P=
( a + b )!( c + d )!( a + c )!( b + d )!
2 8 10 n !a !b !c !d !
2 8
=P
10 (=
10 ) !(10 ) !( 4 ) !(16 ) !
0, 4180
4 16 20 20!2!2!8!1!8!

Tabela 9
Câncer sim Câncer não Total
P=
( a + b )!( c + d )!( a + c )!( b + d )!
1 9 10 n !a !b !c !d !
3 7
=P
10
(=
10 ) !(10 ) !( 4 ) !(16 ) !
0, 2476
4 16 20 20!3!7!1!9!

13
13
UNIDADE Testes de Hipótese para Dados Nominais

Tabela 10
Câncer sim Câncer não Total
P=
( a + b )!( c + d )!( a + c )!( b + d )!
4 6 10 n !a !b !c !d !
0 10
=P
10
(=
10 ) !(10 ) !( 4 ) !(16 ) !
0, 043
4 16 20 20!4!6!0!10!

Perceba que as linhas e colunas que estão em amarelo são sugestões: assim, mante-
nha a soma das linhas e colunas iguais e apenas realize as combinações dentro da Tabela.

Neste caso, o teste de Fisher é monocaudal, ou seja:

PFisher = P1 + P2 + P3 + P4
PFisher = 0, 2476 + 0, 4180 + 0, 2476 + 0, 043
PFisher = 0,9596

Comparando-se os dados do valor de P calculado e α, a hipótese nula será aceita se


o valor de P calculado for maior ou igual que α; do contrário, (P < α), de modo que a
hipótese nula é rejeitada.

Para o Exemplo, percebe-se que 0,9596 é muito maior que α. Logo, a hipótese nula
é aceita e a incidência de câncer em pessoas com e sem tabagismo não possui diferen-
ças significativas.

Note que a mudança dos dois exemplos das quantidades de pacientes influenciou
diretamente os resultados. Portanto, além de escolher o teste, é igualmente importante
verificar o tamanho amostral para que haja validade do que é aplicado.

Entendendo o Significado Real


do Resultado de um Teste de Hipótese
Com a Estatística os resultados obtidos possuem conclusões sobre uma análise de
dados e testes aplicados; de modo que as informações ali obtidas contribuem para a
tomada de decisões, com base em níveis de significância e aceitação ou não da inexis-
tência das variações entre processos comparados entre si.

No entanto, a escolha dos testes, bem como a formulação das hipóteses contribuem
em melhor assertividade na resposta e, consequentemente, na tomada de decisão.

14
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:

Vídeos
Teste de Qui Quadrado – Resumo – Bioestatística
https://youtu.be/qKQuCYkt3BI
Inferência Estatística – Teste qui quadrado
Teste qui-quadrado usando o Office Excel.
https://youtu.be/VOqD1Vipex4

Leitura
Tabela de teste qui-quadrado
https://bit.ly/39jywAp
Estatística descritiva e teste qui-quadrado aplicados à acidentes de trânsito ocorridos em rodovias
federais na Paraíba em 2012
https://bit.ly/2YfEqfw

15
15
UNIDADE Testes de Hipótese para Dados Nominais

Referências
FONTELLES, M. J. Bioestatística aplicada à pesquisa experimental. v. 1. São Paulo:
Livraria da Física, 2012.

GLANTZ, S. A. Princípios de Bioestatística. 7. ed. Porto Alegre, RS: AMGH, 2014.

HOGG, R. V. Statistical Education: improvements are badly needed. The American


Statistician, v. 45, n. 4, p. 342-343, 1991.

LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson Education do


Brasil, 2015.

MARTINEZ, E. Z. Bioestatística para os cursos de Graduação da área da Saúde.


São Paulo: Blucher, 2015.

16

Você também pode gostar