Você está na página 1de 12

Análise de Correlação entre as variáveis a altura em cm dos

indivíduos (x) e a variável dependente (y) o peso dos mesmos em


kg.

Nilza De Agness Doliz Campira 1


Mestranda em Saúde
Pública
Universidade Católica de Moçambique, Faculdade de Ciências de
Saúde
Campiranilza91@gmail.com
Resumo
Este artigo científico, tem como tema “Analise de Correlação entre as variáveis a altura em cm dos indivíduos
(x) e a variável dependente (y) o peso dos mesmos em kg.”. O mesmo pretende responder ao seguinte
problema de pesquisa: existe uma relação linear entre a altura x) dos indivíduos em centímetros e o peso dos
mesmos em kg (y). Procurou também verificar se esta relação é ou não significativa estatisticamente. Para a
materialização deste objectivo geral foi necessário o desdobramento do mesmo em objectivos específicos,
sendo estes o estudo da intensidade da correcção, direcção, coeficiente de determinação e significância da
correlação. No que refere a metodologia, usou-se a revisão bibliográfica. A aplicação da revisão bibliográfica
por meio de materiais que abordam acerca das medidas de intensidade, direcção, coeficiente de determinação
e significância da mesma. A pesquisa concluiu que existe correlação não linear positiva, significativa entre a
altura dos indivíduos em centímetros (x) e o peso dos mesmos em kg (y). Conclui-se também que também que
a altura em centímetros explica 76% da variabilidade do peso dos indivíduos em kg.

Palavras-chave: correlação de Spearman; coeficiente de determinação, direcção da correlação e significância


da correlação.

Abstract
This scientific article has as its theme “Correlation analysis between the variables height in cm of individuals (x)
and the dependent variable (y) their weight in kg.”. It intends to answer the following research problem: there
is a linear relationship between the height x) of individuals in centimeters and their weight in kg (y). It also
sought to verify whether or not this relationship is statistically significant. In order to materialize this general
objective, it was necessary to break it down into specific objectives, which are the study of correction intensity,
direction, coefficient of determination and significance of the correlation. Regarding the methodology, the
literature review was used. The application of the bibliographic review through materials that address the
measures of intensity, direction, coefficient of determination and significance of the same. The research
concluded that there is a positive non-linear correlation, significant between the height of individuals in
centimeters (x) and their weight in kg (y). It is also concluded that height in centimeters explains 76% of the
variability of the weight of individuals in kg.

Keywords: Spearman correlation; coefficient of determination, direction of correlation and significance of


correlation.

1
Licenciada em Biologia, em exercício no Ministerio da Educacao Desenvolvimento Humano, Escola Secundaria
geral de Sangarivera

1
Introdução
Em estudos pode existir a necessidade de estudar a relação de duas ou mais variáveis além
destas medidas descritivas. É de interesse conhecer saber se a variável tem alguma relação entre si,
isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra
variável.

A medida que permite estabelecer a relação entre estas variáveis é a correlação, por outro
lado a correlação tem o poder predizer o comportamento de uma variável em função do
comportamento da outra (preditor), fornece também informação sobre o grau de relação entre as
variáveis, porem ele não permite estabelecer uma relação de causa efeito. A análise de correlação
fornece um número que resume o grau de relacionamento linear entre as duas variáveis.

Este estudo procura compreender se existe uma relação linear entre as variaveis a
altura em cm dos indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg. . Procurou
também verificar se esta relação é ou não significativa estatisticamente. Assim, a análise do
teste de correlação envolveu o estudo das medidas de intensidade, direcção, coeficiente de
determinação e significância.

Revisão de literatura

Objectivos da Correlação linear


A análise de correlação é uma medida que tem por objectivo “medir a força ou o grau de
associação linear entre duas variáveis” e completa que essa análise está “estreitamente relacionada
à análise de regressão” (Pereira , 2022). Então, vemos a importância da análise de correlação para a
parte de inferência estatística.

É de suma importância que se compreenda que a correlação não implica uma relação de
causalidade, ou seja causa efeito. Porem, embora não implique em causalidade, o coeficiente de
correlação exprime em números essa relação, ou seja, quantifica a relação entre as variáveis.

São diversos exemplos de variáveis correlacionadas na área de saúde, podendo ser


mencionadas as seguintes, o peso a nascença com a altura, a idade e o peso, idade gestacional e o
tamanho do recém-nascido, etc.

O coeficiente de correlação linear ou coeficiente de correlação linear de Pearson


O diagrama de dispersão constitui uma ferramenta essencial para a verificação da relação
entre variáveis. Embora esta ferramenta seja valiosa, prevalece a necessidade de ter um número que

2
permite medir esta relação. O coeficiente de correlação linear, é a medida que permite medir esta
relação.

Figura 1 Possíveis cenários da correlação

Fonte: Junior (2018)

Propriedades do coeficiente de Correlação linear (r)

As propriedades mais importantes do coeficiente de correlação são: o intervalo de variação


vai de -1 a +1, o coeficiente de correlação é uma medida adimensional, isto é, ele é independente das
unidades de medida das variáveis X e Y, por outro lado quanto mais próximo de +1 for “r”, maior o
grau de relacionamento linear positivo entre X e Y, ou seja, se X varia em uma direcção Y variará na
mesma direcção.

Também ocorre que quanto mais próximo de -1 for “r”, maior o grau de relacionamento
linear negativo entre X e Y, isto é, se X varia em um sentido Y variará no sentido inverso. De forma
similar pode ocorrer que este seja mais próximo de zero estiver “r” menor será o relacionamento
linear entre X e Y.

Hipóteses Básicas para a correlação


A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas
variáveis seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o

3
relacionamento linear. Segundo Callegari & Siegel (2009), esta suposição pode ser testada por meio
dos gráficos de dispersão adicionado há uma recta.

Para alem da já anunciada acima, existe a hipótese é que as duas variáveis tenham uma
distribuição conjunta normal bivariada. Isto é equivalente a dizer que para cada x dado a variável y é
normalmente distribuída.

Tabela 1 Níveis de correlação

Coeficiente de Correlação Classificação


0 a 0,1 Nula
0,1 a 0,3 Fraca
0,3 a 0,6 Moderada
0,6 a 0,9 Forte
0,9 a 1 Muito forte
1 Perfeita
Fonte: Callegari & Siegel (2009)

Diagramas de Dispersão
Um dos métodos mais usados para a investigação de pares de dados é a utilização de
diagramas de dispersão cartesianos (ou seja, os conhecidos diagramas x-y) (Pereira , 2022).
Geometricamente, um diagrama de dispersão é simplesmente uma colecção de pontos num plano
cujas duas coordenadas Cartesianas são os valores de cada membro do par de dados.

Os diagramas de dispersão constituem o melhor método de examinar os dados no que se


refere à ocorrência de tendências (lineares ou não), agrupamentos de uma ou mais variáveis,
mudanças de espalhamento de uma variável em relação à outra e verificar a ocorrência dos valores
discrepantes.

O coeficiente de determinação
Para alem do coeficiente de correlação, existe uma outra medida no estudo de correlação
entre duas variáveis, de suma importância, o coeficiente de determinação (Junior, 2018). Pode ser
interpretado como sendo a proporção da variação de Y que é explicada pela variável X (e vice-versa).

4
Significância do coeficiente de correlação

Tipos de correlação linear e não linear

O teste de correlação de Pearson


O teste de correlação de Pearson assume que os valores de x e y originam-se de uma
distribuição normal e que a relação é linear (Callegari & Siegel, 2009). Desta forma compreende-se
que estes constituem os dois pressupostos para a aplicação deste teste.

O teste de hipóteses de a correlação de Spearman (rho)


Esta, testa se a correlação de Spearman entre as variáveis é estatisticamente igual a zero. É
assumido que as distribuições dos dados são contínuas e que os dados foram obtidos aos pares. Se a
estatística de teste for menor que os valores críticos obtidos para o teste, então aceita-se a hipótese
nula.

O teste correlação de Kendall

O teste, assim como os de Pearson e Spearman, testa se a correlação é estatisticamente igual


a zero. Assim como no teste de Spearman os dados devem ter uma distribuição contínua e os dados
devem ser obtidos em pares (Gujarati & Porter, 2011).

Se o valor da estatística estiver dentro da região definida pelos valores críticos, aceita-se a
hipótese nula de que a correlação é estatisticamente igual a zero; caso contrário, rejeita-se a
hipótese nula.

Apresentação e discussão dos resultados


Breve contextualização banco de dados em analise e discussão de resultados

O artigo baseou-se no banco de dados reais contendo 48 observações colectadas de forma


aleatória, por meio de processos clínicos em uma unidade sanitária, nas consultas pré-natais. O
presente banco de dados possui duas (2), variáveis sendo as seguintes: variável independente a
altura em cm dos indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg.

Esta análise procura compreender se existe uma relação linear entre a altura em cm dos
indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg. Procurou também verificar se
esta relação é ou não significativa estatisticamente.

As variáveis do quanto a classificação são ambas quantitativas, ou seja, numéricas. O teste de


correlação para estas variáveis exigiu testes iniciais de linearidade ou violação da mesma, assim
como da normalidade.

A verificação da linearidade e normalidade garante que se escolha uma técnica correcta para
cada banco de dados, pois os eventos na natureza podem assumir diferentes distribuições sendo
estes normais e anormais, sob os quais o ser humano não assume nenhum controle. Por outro lado,

5
o estudo da correlação envolveu analise da direcção ou sentido da correlação, intensidade,
coeficiente de determinação e significância da mesma.

Este último, a significância da correlação exigiu o estabelecimento de hipóteses para o


respectivo teste sendo estas as seguintes:

Ho: A correlação não é significativa, no intervalo de confiança de (95%), isto é, r/rho/phi =0 e

H1: A correlação é significativa, no intervalo de confiança de (95%), isto é, r/rho/phi ≠0.

Tendência de linearidade por meio de diagrama de dispersão

Foi aplicado o diagrama de dispersão para verificação a tendência de correlação violação ou


não da relação linear entre as alturas em cm dos indivíduos (x) e a variável dependente (y) o peso dos
mesmos em kg. Para o efeito foi aplicado diagrama de dispersão entre as variáveis a altura em cm
dos indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg.

Figura 2 Diagrama de dispersão (sem recta recta) e com recta para as variaveis a altura em
cm dos indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg.

Fonte: Adaptado pelo autor (2022)

Os pontos representam a relação entre as variáveis. Assim, por meio do diagrama de


dispersão observa-se que os pontos possuem uma tendência crescente, o que denota uma relação
directa entre a altura dos indivíduos (x) em cm e o peso dos indivíduos (y) em kg, ou seja, pode
subentender que a medida que a altura dos indivíduos (x) em cm aumenta o peso dos indivíduos (y)
em kg tende também a aumentar. Por outro lado, nesta relação os pontos não se aproximam da
linha recta azul, o que mostra uma tendência de violação de linearidade.

6
Figura 3 Histogramas e QQplot para as variáveis as variaveis a altura em cm dos indivíduos (x)
e a variável dependente (y) o peso dos mesmos em kg.

Fonte: Adaptado pelo autor (2022)

Os histogramas acima foram construídos com interesse de verificar a tendência de


normalidade ou simetria entre os dados das variáveis alturas em cm dos indivíduos (x) e a variável
dependente (y) o peso dos mesmos em kg. Dos histogramas acima verifica-se que ambas as variáveis
possuem uma tendência assimétrica para a esquerda, ou seja, uma maior concertação para valores
menores.

Assim, pode observa-se possíveis tendências de violação de normalidade. Porém a conclusão


desta tendência será reportada por meio dos testes de normalidade para as variáveis.

7
Fonte: Adaptado pelo autor (2022)
Os QQplots e envelopes da normal procuram comparar os quantis das variáveis (linha
pontilhada) com os quantis da normal padrão (linha vermelha). Desta comparação procura-se
observa-se se estas linhas (pontilhada e vermelha) encontram-se próximas uma das outras.

Assim para a variável altura em cm observa-se por meio do QQplot que os quantis da variável
(linha pontilhada) encontram-se distantes da linha vermelha (quantis da distribuição normal). Este
facto evidencia uma tendência de distribuição assimétrica para a variável idade, ou seja, anormal.

Tal facto ficou evidente também por meio do envelope da normal. Porém, para a variável
peso em kg há uma tendência de normalidade tal facto é viso tanto no QQplot como no envelope da
norma para o peso em kg, porem tal fato será concluído por meio dos testes de normalidade para as
variáveis.

Tabela 2 Teste de normalidade para as alturas em cm dos indivíduos (x) e a variável


dependente (y) o peso dos mesmos em kg.

Fonte: Adaptado pelo autor (2022)


A presente pesquisa aplicou um intervalo de confiança de 95% para todos os testes. Seguem-
se abaixo as hipóteses de normalidade.
8
Hipóteses de normalidade

Ho: A variável apresenta distribuição normal ou sumérica, se p valor (calculado)>0,05 (5%);

H1: A variável apresenta distribuição anormal ou simétrica, se p valor (calculado)<0,05 (5%)

Da tabela um (1) concluiu-se que as variáveis apresentam uma distribuição assimétrica, ou


seja, anormal facto este que já era suspeito por meio do histograma, QQplot e envelope da normal.
Diante disto destes pressupostos violados foi aplicado um teste de correlação não paramétrico,
sendo este a correlação de Spearman, pelo facto da amostra ser grande (n>30), ou seja, o tamanho
da amostra é igual a 40. Seguem abaixo os resultados para o teste de correlação de Spearman.

Tabela 3 Resultados para p teste de correlação de Spearman


Variável Variável Coeficiente de Coeficiente de
Método/Tipo de correlação n S p-value Direcção
independente dependente correlação (rho) determinação
Altura..cm. Peso..kg. Spearman's 48 0.8730625 2338.7 5.965e-16 Positiva 0.7622382
Fonte: Adaptado pelo autor (2022)

Da tabela acima pode observa-se que as alturas em cm dos indivíduos (x) e a variável
dependente (y) o peso dos mesmos em kg possuem uma correlação não linear com Intensidade da
correlação de 0,8730. Este coeficiente de correlação para é positivo o que revela que correlação é
positiva forte. Foi também observado que a correlação entre as variáveis é directamente
proporcional, ou seja, positiva o que significa que a medida que as alturas (x) aumentam o peso em
kg (y) tende também aumentar, numa proporção directa.

O Coeficiente de determinação foi igual a 0,7622 valor este equivalente a 76%, o que significa
que 76% da variação do peso em kg é explicada pela variável altura em cm, e 24% por outras
variáveis não mencionadas no modelo de correlação. Assim, a altura dos indivíduos é suficiente para
explicar a variação do peso dos indivíduos em cm.

Por fim realizado teste de significância da correlação não linear, positiva forte ocorreu que é
significativa, pois o p valor calculado estive abaixo de 5%. Seguem-se abaixo as hipóteses formuladas
para o teste de significância do coeficiente de correlação.

Ho: A correlação entre as variaveis é nula ou não existe (p valor>0.005);

H1: A correlação entre as variaveis é diferente de Zero (p valor<0.05) ou seja é sigmificativa;

9
Conclusão
O presente estudo de correlação baseou-se em um banco de dados reais, contendo quarenta
e oito (48) observações. A analise correlação primariamente realçou o estudo de forma gráfica,
usando um diagrama de dispersão, na perspectiva de verificar se havia violação de linearidade.
Neste foi observado que a dispersão a altura dos indivíduos em cm e o peso em kg não
obedecem a uma relação linear, daí que pode afirmar-se que há violação da linearidade. Desta forma
havendo correlação entre as variáveis, esta não será linear.
Por outro lado, a correlação de Spearman foi aqui melhor se adequou a análise mediante o
comportamento dos dados, ou seja, violação de linearidade e normalidade. A amostra revelou ser
grande com tamanho maior que trinta (30).
Do teste de correlação de Spearman realizado verificou-se que as variáveis não possuem
correlação linear, porem ela existe no valor de 0,8730 que revelou ser forte positiva. Este facto,
relação directa entre as variáveis revela que a medida que as alturas dos indivíduos aumentam o
peso dos mesmos tende também a aumentar.
Por outro lado, a altura dos indivíduos dos indivíduos explica 76% da variabilidade do peso
dos indivíduos e 24%% da variabilidade do peso dos indivíduos é explicada por outras variáveis não
mencionadas no modelo. Por fim concluiu-se que a correlação no valor de 0,87 é significativa.

10
Bibliografia
Callegari, J. S., & Siegel, S. (2009). Bioestatística: princípios e aplicações. . Artmed Editora.

Filho, A. C. (2020). Correlação e Regressão. São Paulo.

Gujarati, D. N., & Porter, D. C. (2011). Econometria básica-5. Amgh Editora.

Junior, J. T. (2018). Bioestatistica: Conceitos e Fundamentos. CIAS.

Oper. (23 de 08 de 2019). Oper. Obtido de Coeficientes de correlação:


https://operdata.com.br/blog/coeficientes-de-correlacao/

Pereira , G. (30 de Julho de 2022). Coeficiente de correlação de Pearson. Obtido de


Gpestatistica : https://gpestatistica.netlify.app/blog/correlacao/

11
Anexo 1: Banco de dados usado na pesquisa

Você também pode gostar