Escolar Documentos
Profissional Documentos
Cultura Documentos
Abstract
This scientific article has as its theme “Correlation analysis between the variables height in cm of individuals (x)
and the dependent variable (y) their weight in kg.”. It intends to answer the following research problem: there
is a linear relationship between the height x) of individuals in centimeters and their weight in kg (y). It also
sought to verify whether or not this relationship is statistically significant. In order to materialize this general
objective, it was necessary to break it down into specific objectives, which are the study of correction intensity,
direction, coefficient of determination and significance of the correlation. Regarding the methodology, the
literature review was used. The application of the bibliographic review through materials that address the
measures of intensity, direction, coefficient of determination and significance of the same. The research
concluded that there is a positive non-linear correlation, significant between the height of individuals in
centimeters (x) and their weight in kg (y). It is also concluded that height in centimeters explains 76% of the
variability of the weight of individuals in kg.
1
Licenciada em Biologia, em exercício no Ministerio da Educacao Desenvolvimento Humano, Escola Secundaria
geral de Sangarivera
1
Introdução
Em estudos pode existir a necessidade de estudar a relação de duas ou mais variáveis além
destas medidas descritivas. É de interesse conhecer saber se a variável tem alguma relação entre si,
isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra
variável.
A medida que permite estabelecer a relação entre estas variáveis é a correlação, por outro
lado a correlação tem o poder predizer o comportamento de uma variável em função do
comportamento da outra (preditor), fornece também informação sobre o grau de relação entre as
variáveis, porem ele não permite estabelecer uma relação de causa efeito. A análise de correlação
fornece um número que resume o grau de relacionamento linear entre as duas variáveis.
Este estudo procura compreender se existe uma relação linear entre as variaveis a
altura em cm dos indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg. . Procurou
também verificar se esta relação é ou não significativa estatisticamente. Assim, a análise do
teste de correlação envolveu o estudo das medidas de intensidade, direcção, coeficiente de
determinação e significância.
Revisão de literatura
É de suma importância que se compreenda que a correlação não implica uma relação de
causalidade, ou seja causa efeito. Porem, embora não implique em causalidade, o coeficiente de
correlação exprime em números essa relação, ou seja, quantifica a relação entre as variáveis.
2
permite medir esta relação. O coeficiente de correlação linear, é a medida que permite medir esta
relação.
Também ocorre que quanto mais próximo de -1 for “r”, maior o grau de relacionamento
linear negativo entre X e Y, isto é, se X varia em um sentido Y variará no sentido inverso. De forma
similar pode ocorrer que este seja mais próximo de zero estiver “r” menor será o relacionamento
linear entre X e Y.
3
relacionamento linear. Segundo Callegari & Siegel (2009), esta suposição pode ser testada por meio
dos gráficos de dispersão adicionado há uma recta.
Para alem da já anunciada acima, existe a hipótese é que as duas variáveis tenham uma
distribuição conjunta normal bivariada. Isto é equivalente a dizer que para cada x dado a variável y é
normalmente distribuída.
Diagramas de Dispersão
Um dos métodos mais usados para a investigação de pares de dados é a utilização de
diagramas de dispersão cartesianos (ou seja, os conhecidos diagramas x-y) (Pereira , 2022).
Geometricamente, um diagrama de dispersão é simplesmente uma colecção de pontos num plano
cujas duas coordenadas Cartesianas são os valores de cada membro do par de dados.
O coeficiente de determinação
Para alem do coeficiente de correlação, existe uma outra medida no estudo de correlação
entre duas variáveis, de suma importância, o coeficiente de determinação (Junior, 2018). Pode ser
interpretado como sendo a proporção da variação de Y que é explicada pela variável X (e vice-versa).
4
Significância do coeficiente de correlação
Se o valor da estatística estiver dentro da região definida pelos valores críticos, aceita-se a
hipótese nula de que a correlação é estatisticamente igual a zero; caso contrário, rejeita-se a
hipótese nula.
Esta análise procura compreender se existe uma relação linear entre a altura em cm dos
indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg. Procurou também verificar se
esta relação é ou não significativa estatisticamente.
A verificação da linearidade e normalidade garante que se escolha uma técnica correcta para
cada banco de dados, pois os eventos na natureza podem assumir diferentes distribuições sendo
estes normais e anormais, sob os quais o ser humano não assume nenhum controle. Por outro lado,
5
o estudo da correlação envolveu analise da direcção ou sentido da correlação, intensidade,
coeficiente de determinação e significância da mesma.
Figura 2 Diagrama de dispersão (sem recta recta) e com recta para as variaveis a altura em
cm dos indivíduos (x) e a variável dependente (y) o peso dos mesmos em kg.
6
Figura 3 Histogramas e QQplot para as variáveis as variaveis a altura em cm dos indivíduos (x)
e a variável dependente (y) o peso dos mesmos em kg.
7
Fonte: Adaptado pelo autor (2022)
Os QQplots e envelopes da normal procuram comparar os quantis das variáveis (linha
pontilhada) com os quantis da normal padrão (linha vermelha). Desta comparação procura-se
observa-se se estas linhas (pontilhada e vermelha) encontram-se próximas uma das outras.
Assim para a variável altura em cm observa-se por meio do QQplot que os quantis da variável
(linha pontilhada) encontram-se distantes da linha vermelha (quantis da distribuição normal). Este
facto evidencia uma tendência de distribuição assimétrica para a variável idade, ou seja, anormal.
Tal facto ficou evidente também por meio do envelope da normal. Porém, para a variável
peso em kg há uma tendência de normalidade tal facto é viso tanto no QQplot como no envelope da
norma para o peso em kg, porem tal fato será concluído por meio dos testes de normalidade para as
variáveis.
Da tabela acima pode observa-se que as alturas em cm dos indivíduos (x) e a variável
dependente (y) o peso dos mesmos em kg possuem uma correlação não linear com Intensidade da
correlação de 0,8730. Este coeficiente de correlação para é positivo o que revela que correlação é
positiva forte. Foi também observado que a correlação entre as variáveis é directamente
proporcional, ou seja, positiva o que significa que a medida que as alturas (x) aumentam o peso em
kg (y) tende também aumentar, numa proporção directa.
O Coeficiente de determinação foi igual a 0,7622 valor este equivalente a 76%, o que significa
que 76% da variação do peso em kg é explicada pela variável altura em cm, e 24% por outras
variáveis não mencionadas no modelo de correlação. Assim, a altura dos indivíduos é suficiente para
explicar a variação do peso dos indivíduos em cm.
Por fim realizado teste de significância da correlação não linear, positiva forte ocorreu que é
significativa, pois o p valor calculado estive abaixo de 5%. Seguem-se abaixo as hipóteses formuladas
para o teste de significância do coeficiente de correlação.
9
Conclusão
O presente estudo de correlação baseou-se em um banco de dados reais, contendo quarenta
e oito (48) observações. A analise correlação primariamente realçou o estudo de forma gráfica,
usando um diagrama de dispersão, na perspectiva de verificar se havia violação de linearidade.
Neste foi observado que a dispersão a altura dos indivíduos em cm e o peso em kg não
obedecem a uma relação linear, daí que pode afirmar-se que há violação da linearidade. Desta forma
havendo correlação entre as variáveis, esta não será linear.
Por outro lado, a correlação de Spearman foi aqui melhor se adequou a análise mediante o
comportamento dos dados, ou seja, violação de linearidade e normalidade. A amostra revelou ser
grande com tamanho maior que trinta (30).
Do teste de correlação de Spearman realizado verificou-se que as variáveis não possuem
correlação linear, porem ela existe no valor de 0,8730 que revelou ser forte positiva. Este facto,
relação directa entre as variáveis revela que a medida que as alturas dos indivíduos aumentam o
peso dos mesmos tende também a aumentar.
Por outro lado, a altura dos indivíduos dos indivíduos explica 76% da variabilidade do peso
dos indivíduos e 24%% da variabilidade do peso dos indivíduos é explicada por outras variáveis não
mencionadas no modelo. Por fim concluiu-se que a correlação no valor de 0,87 é significativa.
10
Bibliografia
Callegari, J. S., & Siegel, S. (2009). Bioestatística: princípios e aplicações. . Artmed Editora.
11
Anexo 1: Banco de dados usado na pesquisa