Escolar Documentos
Profissional Documentos
Cultura Documentos
Em geral, quando uma das duas variáveis é do tipo categórica e puramente nominal (isto é,
não pode nem ser ordenada) não se pode fazer um estudo de correlação. Pela própria
definição, uma variável categórica nominal é caracterizada pelo nome da categoria à qual
pertence, por exemplo, marca de cerveja preferida, status civil (solteiro, casado, divorciado
etc), tem carro ou não, etc. Variáveis desse tipo não podem ser quantificadas por números.
O que se costuma fazer quando uma das duas variáveis é categórica do tipo nominal e a
outra é numérica é aplicar um teste de associação chamado de teste do χ2 (lê-se “qui-
quadrado”). Para que esse teste seja aplicado, o que se faz é reduzir a variável numérica a
uma variável nominal também. Isso será visto em uma aula futura.
1
Estatística II – Antonio Roque – Aula 17
Quando a variável nominal é dicotômica, o primeiro passo é codificar seus dois possíveis
valores de alguma maneira, por exemplo, por “0” e “1”, ou por “1” e “2”, ou por “5” e
“10”, etc. Então, para se calcular a correlação entre esta variável e a outra variável
(numérica) procede-se com o cálculo do coeficiente de correlação de Pearson da forma
usual, que é chamado neste caso de coeficiente de correlação ponto-bisserial (indicado
por rpb). O teste de significância para rpb é também feito da mesma maneira que a feita para
o coeficiente de correlação de Pearson, isto é, com o cálculo de t0.
Vejamos o seguinte exemplo. Um estudo foi feito para se avaliar o comportamento sexual
de estudantes universitários. Selecionou-se uma amostra de 32 estudantes universitários,
com idades entre 18 e 24 anos e de ambos os sexos, e perguntou-se a cada um deles
quantas vezes teve relações sexuais nos últimos 12 meses. O resultado (fictício) está
mostrado na tabela abaixo, onde os nomes dos estudantes foram omitidos, mas os seus
sexos foram codificados como “0” para masculino e “1” para feminino.
O cálculo de rpb é feito pela mesma fórmula usada para se calcular r (ou usando-se a
função “correl” do Excel), onde a variável X só pode assumir os valores 0 ou 1 e a variável
Y é o número de vezes que se fez sexo nos últimos 12 meses.
2
Estatística II – Antonio Roque – Aula 17
3
Estatística II – Antonio Roque – Aula 17
n−2 30
t0 = r 2
= −0,155 = −0,861.
1− r 1 − 0,024
Como o valor de t0 está entre −t(gl) e t(gl) = 2,0423, não se pode rejeitar a hipótese nula
(de que não há correlação entre o sexo do estudante e o número de vezes que ele(a) faz
sexo por ano) e deve-se concluir que a correlação obtida não é significante. Portanto, o
resultado desse estudo é o de que não se pode concluir que existe diferença de gênero
(masculino-feminino) entre estudantes universitários quanto à freqüência anual de relações
sexuais.
Vejamos um outro exemplo. Aqueles que trabalham com questionários, exames ou provas
de avaliação de pessoas, compostos por várias questões ou itens, gostam de tentar
estabelecer se existe alguma questão crítica do questionário tal que se a pessoa sendo
avaliada acertar essa questão ela tem grande chance de passar no exame. Uma pergunta
como essa pode ser respondida fazendo-se um estudo de correlação entre o acerto/erro da
questão crítica e a nota ou escore final no exame.
Por exemplo, seja a tabela abaixo dando os escores totais de um grupo de 10 pessoas em
um exame de proficiência em língua inglesa (vamos supor que as pessoas são candidatas a
uma vaga de trainee em uma empresa multinacional). O exame foi composto por 50
questões cobrindo tópicos como proficiência escrita, entendimento de texto, entendimento
de inglês falado e conversação.
Para cada questão há duas possibilidades, ou o candidato a acerta ou a erra (uma variável
nominal dicotômica). O acerto foi codificado por 1 e o erro por 0. O escore total do
candidato no exame está colocado na última coluna. O seu valor máximo é 50 e o valor
mínimo é 0. Os candidatos foram arranjados em ordem decrescente de escore total.
4
Estatística II – Antonio Roque – Aula 17
n−2
Para testar a significância deste valor, vamos usar gl = 10 − 2 = 8 e t 0 = r = 4,303.
1− r 2
Este valor é maior que t(8) para α = 0,05, de maneira que podemos rejeitar a hipótese nula
de que não existe correlação entre as duas variáveis a um nível de significância de 0,05.
Ou seja, a correlação obtida é significante.
5
Estatística II – Antonio Roque – Aula 17
Em um caso em que se faz um estudo de correlação entre uma variável contínua que
obedece a uma distribuição normal e que é artificialmente dicotomizada e uma outra
variável numérica, o coeficiente de correlação é chamado de coeficiente de correlação
bisserial, denotado por rb. Não vamos tratar desse coeficiente de correlação aqui, estamos
apenas mencionando a sua existência.