Nao Correlacionar Variavel Categorica

Estatística II – Antonio Roque – Aula 17
Correlação quando uma Variável é Nominal
Em geral, quando uma das duas variáveis é do tipo categórica e puramente nominal (isto é,
não pode nem ser ordenada) não se pode fazer um estudo de correlação. Pela própria
definição, uma variável categórica nominal é caracterizada pelo nome da categoria à qual
pertence, por exemplo, marca de cerveja preferida, status civil (solteiro, casado, divorciado
etc), tem carro ou não, etc. Variáveis desse tipo não podem ser quantificadas por números.
Nota: Embora as variáveis categóricas não sejam quantificáveis numericamente, é muito

comum representá-las por códigos numéricos, do tipo 0 = homem e 1 = mulher; ou 1 =
solteira, sem filhos, 2 = casada, sem filhos, 3 = casada, com filhos, 4 = mãe solteira, 5 =
divorciada, sem filhos, 6 = divorciada, com filhos, etc. Os códigos numéricos são apenas
uma maneira abreviada de se referir às categorias e não têm qualquer sentido considerá-los
como valores em um estudo de correlação. Qualquer tentativa de correlacionar valores
numéricos verdadeiros, que representem quantidades medidas ou observadas sobre
variáveis, com códigos numéricos, usados apenas para rotular variáveis categóricas, levará
a análises de correlação completamente sem sentido.
O que se costuma fazer quando uma das duas variáveis é categórica do tipo nominal e a
outra é numérica é aplicar um teste de associação chamado de teste do χ2 (lê-se “qui-
quadrado”). Para que esse teste seja aplicado, o que se faz é reduzir a variável numérica a
uma variável nominal também. Isso será visto em uma aula futura.
Existe, no entanto, um caso especial em que é possível calcular o coeficiente de correlação

entre duas variáveis, uma numérica e a outra categórica nominal. Este é o caso em que a
variável categórica tem apenas dois valores que cobrem todos os casos possíveis, por
exemplo, masculino/feminino, fumante/não fumante, etc. Uma variável desse tipo é
chamada de dicotômica (por assumir apenas dois valores).
1
Quando a variável nominal é dicotômica, o primeiro passo é codificar seus dois possíveis
valores de alguma maneira, por exemplo, por “0” e “1”, ou por “1” e “2”, ou por “5” e
“10”, etc. Então, para se calcular a correlação entre esta variável e a outra variável
(numérica) procede-se com o cálculo do coeficiente de correlação de Pearson da forma
usual, que é chamado neste caso de coeficiente de correlação ponto-bisserial (indicado
por rpb). O teste de significância para rpb é também feito da mesma maneira que a feita para
o coeficiente de correlação de Pearson, isto é, com o cálculo de t0.
Resumindo: o coeficiente de correlação ponto-bisserial é usado para se medir a correlação

entre uma variável nominal dicotômica e uma variável numérica. Na verdade, ele é apenas
um caso especial do coeficiente de correlação de Pearson e o cálculo do coeficiente de
correlação ponto-bisserial é feito da mesma maneira que se calcula o coeficiente de
correlação de Pearson, só que com os valores da variável dicotômica sendo os do código
numérico binário escolhido.
Vejamos o seguinte exemplo. Um estudo foi feito para se avaliar o comportamento sexual
de estudantes universitários. Selecionou-se uma amostra de 32 estudantes universitários,
com idades entre 18 e 24 anos e de ambos os sexos, e perguntou-se a cada um deles
quantas vezes teve relações sexuais nos últimos 12 meses. O resultado (fictício) está
mostrado na tabela abaixo, onde os nomes dos estudantes foram omitidos, mas os seus
sexos foram codificados como “0” para masculino e “1” para feminino.
O cálculo de rpb é feito pela mesma fórmula usada para se calcular r (ou usando-se a
função “correl” do Excel), onde a variável X só pode assumir os valores 0 ou 1 e a variável
Y é o número de vezes que se fez sexo nos últimos 12 meses.
2
Sexo Número de vezes que fez sexo

(X) nos últimos 12 meses (Y)
0 17
0 14
0 7
0 4
0 12
0 33
0 18
0 5
0 13
0 19
0 7
0 20
0 7
0 8
0 7
0 15
0 12
1 21
1 3
1 5
1 13
1 14
1 4
1 18
1 6
1 14
1 17
1 3
1 0
1 24
1 5
1 12
3
O valor calculado é: rpb = −0,155.
Para testar a significância deste valor, vamos usar gl = 32 − 2 = 30 e
n−2 30
t0 = r 2
= −0,155 = −0,861.
1− r 1 − 0,024
Como o valor de t0 está entre −t(gl) e t(gl) = 2,0423, não se pode rejeitar a hipótese nula
(de que não há correlação entre o sexo do estudante e o número de vezes que ele(a) faz
sexo por ano) e deve-se concluir que a correlação obtida não é significante. Portanto, o
resultado desse estudo é o de que não se pode concluir que existe diferença de gênero
(masculino-feminino) entre estudantes universitários quanto à freqüência anual de relações
sexuais.
Vejamos um outro exemplo. Aqueles que trabalham com questionários, exames ou provas
de avaliação de pessoas, compostos por várias questões ou itens, gostam de tentar
estabelecer se existe alguma questão crítica do questionário tal que se a pessoa sendo
avaliada acertar essa questão ela tem grande chance de passar no exame. Uma pergunta
como essa pode ser respondida fazendo-se um estudo de correlação entre o acerto/erro da
questão crítica e a nota ou escore final no exame.
Por exemplo, seja a tabela abaixo dando os escores totais de um grupo de 10 pessoas em
um exame de proficiência em língua inglesa (vamos supor que as pessoas são candidatas a
uma vaga de trainee em uma empresa multinacional). O exame foi composto por 50
questões cobrindo tópicos como proficiência escrita, entendimento de texto, entendimento
de inglês falado e conversação.
Para cada questão há duas possibilidades, ou o candidato a acerta ou a erra (uma variável
nominal dicotômica). O acerto foi codificado por 1 e o erro por 0. O escore total do
candidato no exame está colocado na última coluna. O seu valor máximo é 50 e o valor
mínimo é 0. Os candidatos foram arranjados em ordem decrescente de escore total.
4
Candidato Questão 1 Questão 2 Questão 3 ... Escore Total

1 1 1 1 ... 48
2 1 0 1 ... 45
3 1 1 1 ... 44
4 1 0 1 ... 39
5 0 0 1 ... 35
6 1 1 1 ... 33
7 0 1 1 ... 26
8 0 0 1 ... 25
9 0 0 1 ... 22
10 0 1 1 ... 18
O calculo do coeficiente de correlação ponto-bisserial (use a função “correl” do Excel para

calculá-lo) para a correlação entre a variável dicotômica “acertou a questão 1” e a variável
numérca “escore total no exame” nos dá rpb = 0,84.
n−2
Para testar a significância deste valor, vamos usar gl = 10 − 2 = 8 e t 0 = r = 4,303.
1− r 2
Este valor é maior que t(8) para α = 0,05, de maneira que podemos rejeitar a hipótese nula
de que não existe correlação entre as duas variáveis a um nível de significância de 0,05.
Ou seja, a correlação obtida é significante.
Nos dois exemplos de correlação ponto-bisserial dados, a variável dicotômica em questão

é naturalmente dicotômica. Isto quer dizer que os dois valores que ela pode assumir já são
determinados por sua própria natureza (masculino-feminino, certo-errado). Há alguns
casos em que uma variável numérica que pode assumir diversos valores é artificialmente
dicotomizada para que se calcule um coeficiente de correlação entre ela e alguma outra
variável. Por exemplo, caso tenhamos uma amostra de valores de QI de n pessoas com
média x podemos codificar cada pessoa como sendo “1” caso seu QI esteja abaixo da
média e “2” caso seu QI esteja acima da média.
5
Em um caso em que se faz um estudo de correlação entre uma variável contínua que
obedece a uma distribuição normal e que é artificialmente dicotomizada e uma outra
variável numérica, o coeficiente de correlação é chamado de coeficiente de correlação
bisserial, denotado por rb. Não vamos tratar desse coeficiente de correlação aqui, estamos
apenas mencionando a sua existência.
Um outro coeficiente de correlação cuja existência será apenas mencionada é o chamado

coeficiente Φ (lê-se “fi”). Ele é aplicado quando se quer calcular a correlação entre duas
variáveis nominais que são naturalmente dicotômicas, como, por exemplo,
masculino/feminino e trabalha/não trabalha. O cálculo desse coeficiente de correlação é
feito atribuindo-se valores numéricos binários às duas variáveis, por exemplo, 1/0 e 2/1, e
calculando-se o coeficiente de correlação de Pearson entre elas.

Nao Correlacionar Variavel Categorica

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Nao Correlacionar Variavel Categorica

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística II – Antonio Roque – Aula 17

Correlação quando uma Variável é Nominal

Nota: Embora as variáveis categóricas não sejam quantificáveis numericamente, é muito

Existe, no entanto, um caso especial em que é possível calcular o coeficiente de correlação

Resumindo: o coeficiente de correlação ponto-bisserial é usado para se medir a correlação

Sexo Número de vezes que fez sexo

O valor calculado é: rpb = −0,155.

Para testar a significância deste valor, vamos usar gl = 32 − 2 = 30 e

Candidato Questão 1 Questão 2 Questão 3 ... Escore Total

O calculo do coeficiente de correlação ponto-bisserial (use a função “correl” do Excel para

Nos dois exemplos de correlação ponto-bisserial dados, a variável dicotômica em questão

Um outro coeficiente de correlação cuja existência será apenas mencionada é o chamado

Você também pode gostar