Você está na página 1de 3

EST AV PSI Testes de independência DMat 2022

O estudo da independência entre duas caracterı́sticas da mesma população, depende

do tipo de variáveis em análise.

Foi já estudado o caso em que as duas caracterı́sticas em estudo são categóricas (testes

do qui-quadrado). No caso em que ambas as caracterı́sticas são quantitativas, deve ainda

atender-se à escala de medida em que se encontram. Quando as caracterı́sticas X e Y são

quantitativas, o estudo de independência entre estas deve iniciar-se com a constução de um

diagrama de dispersão dos n valores observados (xi , yi ), i = 1, . . . , n da amostra aleatória.

Os coeficientes de correlação são indicadores da intensidade, e do sentido, da relação entre

as variáveis.

Os valores dos indicadores apresentados a seguir, variam entre −1 e 1. Quanto ao sentido da

associação entre as variáveis, no caso em que o coeficiente de correlação é positivo, quando

os valores de uma das variáveis crescem, os valores da outra variável também tendem a

crescer. Se, por outro lado, o coeficiente de correlação é negativo, quando os valores de

uma das variáveis crescem, os valores da outra variável tendem a decrescer. Em relação à

intensidade, quando mais próximo o valor do coeficiente de correlação estiver de 1, ou de

−1, mais associadas estão as variáveis.

Para testar se a associação que detetamos nos dados é significativa, deve proceder-se a testes

de hipóteses. Nestes testes a H0 estabelece que não existe associação entre as variáveis e a

H1 estabelece a existência de associação. A Estatı́stica do Teste depende do tipo de variáveis

e da sua escala de medida.

Se a H1 é unilateral, o p-value devolvido pelo SPSS (bilateral), deve ser dividido por 2, desde

que a amostra aponte no sentido da H1 .

DMat 2022 1 cecilia castro


EST AV PSI Testes de independência

1 Correlação de Pearson

Se as caracterı́sticas X e Y em estudo são ambas quantitativas, se encontram em escala,

no mı́nimo, intervalar e se o diagrama de dispersão dos dados revela uma tendência linear

entre as variáveis, usa-se o coeficiente de correlação de Pearson para medir a intensidade da

associação entre as variáveis e o sentido dessa relação.


n
1 X xi − x y i − y
r=
n − 1 i=1 sx sy

Quando o coeficiente de correlação de Pearson tem o valor −1 ou 1, a relação linear entre

as variáveis é perfeita. A correlação amostral estima a correlação populacional, usualmente

designada por ρ. Relativamente à significância estatı́stica da associação, a ET é função do

coeficiente de correlaçao de Pearson amostral, e a sua distribuição pressupõe que as variáveis

tenham uma distribuição Normal Bivariada. De facto, neste caso, H0 : X, Y independentes,

é equivalente a ρ = 0 (ρ coeficiente de correlação populacional). Neste teste, tem-se a ET

R √
T =√ n − 2 ∼ tn−2
1 − R2

2 Correlação de Spearman

Quando não é possı́vel assumir que as variáveis X e Y têm uma distribuição Normal Bivari-

ada, ou quando os dados se encontram numa escala apenas ordinal, pode usar-se o coeficiente

de correlação de Pearson aplicado às ordens (aos ranks) das variáveis X e Y . Esta versão

designa-se por coeficiente de correlação de Spearman. A fórmula resultante é

6 ni=1 d2i
P
rS = 1 −
n(n2 − 1)

em que di são as diferenças entre as ordens de xi e de yi . Neste caso o teste de associação

é não paramétrico (não assume que os dados sejam normais bivaridos). Sob a validade da

DMat 2022 2 cecilia castro


EST AV PSI Testes de independência DMat 2022

H0 : ρS = 0 (as variáveis não se encontram associadas) a ET


RS n − 3 ∼ N (0, 1)

3 Correlação de Kendall

Outra estatı́stica que mede a associação entre X e Y , sem que a distribuição da ET deva

assumir a normalidade bivariada das observações, baseada na definição de pares concordantes

e de pares discordantes, é a τ de Kendall. Este coeficiente corresponde à diferença entre a

fração de pares concordantes e a fração de pares discordantes. Tal como no caso da correlação

de Pearson, se X e Y são independentes, o coeficiente de correlação populacional τ = 0

equivale a independência entre as variáveis. Sob a validade de H0 : τ = 0, a ET é conhecida

e tem distribuição Normal.

4 Exercı́cios

Nos exercı́cios que se seguem, deve fazer gráficos adequados e comente todos os resultados

obtidos.

1. Estude a associação entre as variáveis quantitativas do conjunto de dados iris, duas

as duas, considerando todas as espécies, e, de seguida, considerando apenas as espécies

versicolor e virginica.

2. Relativamente aos dados constantes nas colunas G1 , G2 e G3 do ficheiro student-mat,

estude as correlações entre estas variáveis ,duas a duas, quer globalmente, quer para

cada um dos nı́veis da variável género, sex.

DMat 2022 3 cecilia castro

Você também pode gostar