Escolar Documentos
Profissional Documentos
Cultura Documentos
O coeficiente de correlação de Pearson é uma fórmula estatística muito útil que mede
a força entre variáveis e relacionamentos. No campo das estatísticas, essa fórmula é
freqüentemente chamada de teste R de Pearson . Ao conduzir um teste estatístico
entre duas variáveis, é uma boa ideia conduzir um valor de coeficiente de correlação
de Pearson para determinar o quão forte é a relação entre essas duas variáveis.
Fórmula
Para determinar o quão forte é a relação entre duas variáveis, uma fórmula deve ser
seguida para produzir o que é referido como o valor do coeficiente . O valor do
coeficiente pode variar entre -1,00 e 1,00. Se o valor do coeficiente estiver na faixa
negativa, isso significa que a relação entre as variáveis está negativamente
correlacionada ou, conforme um valor aumenta, o outro diminui. Se o valor estiver na
faixa positiva, isso significa que a relação entre as variáveis está positivamente
correlacionada ou ambos os valores aumentam ou diminuem juntos. Vejamos a
fórmula para conduzir o valor do coeficiente de correlação de Pearson.
Etapa um: Faça um gráfico com seus dados para duas variáveis, rotulando as variáveis
( x ) e ( y ), e adicione mais três colunas rotuladas ( xy ), ( x ^ 2) e ( y ^ 2). Um gráfico
de dados simples pode ter a seguinte aparência:
Pontuação
Pessoa Idade ( x ) ( y ) ( xy ) ( x ^ 2) ( y ^ 2)
Mais dados seriam necessários, mas apenas três amostras são mostradas para fins de
exemplo.
Etapa dois: complete o gráfico usando a multiplicação básica dos valores das
variáveis.
Pontuação
Pessoa Idade ( x ) ( y ) ( xy ) ( x ^ 2) ( y ^ 2)
Etapa três: depois de multiplicar todos os valores para completar o gráfico, some
todas as colunas de cima para baixo.
Pontuação
Pessoa Idade ( x ) ( y ) ( xy ) ( x ^ 2) ( y ^ 2)
Etapa quatro: use esta fórmula para encontrar o valor do coeficiente de correlação de
Pearson.
Exemplos
Digamos que você esteja analisando a relação entre a idade de seus participantes e o
nível de renda relatado. Você está curioso para saber se existe uma relação positiva ou
negativa entre a idade de alguém e seu nível de renda. Depois de conduzir o teste, o
valor do coeficiente de correlação de Pearson é +0,20. Portanto, você teria uma
correlação ligeiramente positiva entre as duas variáveis, de modo que a força da
relação também é positiva e considerada forte. Você pode concluir com segurança que
há uma forte relação e correlação positiva entre a idade e a renda de uma pessoa. Em
outras palavras, conforme as pessoas envelhecem, sua renda tende a aumentar
também.
Significado
Uma discussão sobre o coeficiente de correlação de Pearson não estaria completa se
não falássemos sobre significância estatística . Na realização de testes estatísticos, a
significância estatística deve estar presente para estabelecer uma probabilidade dos
resultados sem erro.
Os dados não agrupados são provenientes da pesquisa ou estudo realizado para obtê-
los e, portanto, carecem de processamento. Vamos ver alguns exemplos:
Resultados de um teste de QI realizado em 20 estudantes aleatórios de uma
universidade. Os dados obtidos foram os seguintes:
119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124,
112, 112,106
24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20
3,2; 3.1; 2.4; 4,0; 3,5; 3,0; 3,5; 3,8; 4.2; 4.9
Propriedades de dados
-Posição , que é a tendência dos dados para agrupar em torno de certos valores.
-Forma , refere-se à maneira como os dados são distribuídos, o que pode ser visto
quando um gráfico é construído. Existem curvas muito simétricas e também
inclinadas, à esquerda ou à direita de um certo valor central.
Para cada uma dessas propriedades, há uma série de medidas que as descrevem. Uma
vez obtidos, eles nos fornecem uma visão geral do comportamento dos dados:
-As medidas de posição mais usadas são a média aritmética ou simplesmente média, a
mediana e o modo.
– Faixa, variação e desvio padrão são frequentemente usados na dispersão, mas não
são as únicas medidas de dispersão.
Onde x 1 , x 2 ,…. x n, são os dados en é o total deles. Em notação de soma, temos:
– A mediana é o valor que aparece no meio de uma sequência ordenada de dados;
portanto, para obtê-lo, é necessário ordenar os dados antes de qualquer outra coisa.
– O modo é o valor mais comum observado no conjunto de dados. Nem sempre
existe, pois é possível que um valor se repita com mais frequência que outro. Também
pode haver dois dados com a mesma frequência; nesse caso, estamos falando de uma
distribuição bimodal.
Diferentemente das duas medidas anteriores, a moda pode ser usada com dados
qualitativos.
Vamos ver como essas medidas de posição são calculadas com um exemplo:
Exemplo resolvido
22/04/2022
ATUALIZADO: 25/05/2022
A correlação de Pearson é um teste estatístico que pode ser usado no cotidiano de
profissionais diversos. Por norma, é empregada para manusear e obter entendimento
sobre as variáveis indicadas.
Com ela, é possível compreender sobre a aplicabilidade das mais variadas fórmulas,
principalmente as utilizadas por cientistas de dados. Isso é fundamental para quem
deseja se tornar um profissional especialista e multidisciplinar na área, em um
mercado cada vez mais competitivo.
Por isso, preparamos um guia completo sobre o que é a correlação de Pearson e como
usar a fórmula para obter os resultados desejados, sem dar margem para erros.
Logicamente, a fórmula recebe este nome devido às descobertas de Karl Pearson. Este
contribuiu significativamente para os estudos na área de exatas. Contudo, essas não se
limitam ao campo da estatística, mas permeiam por outras áreas como ciências
sociais.
Para que serve o coeficiente de correlação linear?
Na prática, é um índice dimensional “r” com valores que variam dos extremos entre -
1 e +1, resultando na intensidade de uma relação linear entre dois conjuntos de dados.
Se não houver linearidade entre os elementos associados, o coeficiente não será
apresentado adequadamente. Logo, isso pode causar impactos nos resultados.
Importante saber que o coeficiente (resultado “r”) não tem unidade física de definição,
sendo adimensional (número puro).
Na prática, é um índice dimensional “r” com valores que variam dos extremos entre -
1 e +1, resultando na intensidade de uma relação linear entre dois conjuntos de dados.
Se não houver linearidade entre os elementos associados, o coeficiente não será
apresentado adequadamente. Logo, isso pode causar impactos nos resultados.
Importante saber que o coeficiente (resultado “r”) não tem unidade física de definição,
sendo adimensional (número puro).
Como calcular o coeficiente de correlação de Pearson?
Portanto, essa atividade matemática pode ser realizada através de uma fórmula
manual (como exemplificada a seguir) ou ainda utilizando algumas ferramentas
computadorizadas, o Python ou Excel.
Fórmula Manual
O teste para encontrar o coeficiente de correlação de Pearson pode ser feito seguindo
a seguinte fórmula:
Pandas,
Numpy,
Seaborn,
Scipy e/ou
Stats Models.
Com os dados em mãos, você pode montar uma tabela em um editor de planilhas. É
possível, portanto, realizar o cálculo no Microsoft Excel ou Google Spreadsheets.
Calcular a correlação em Excel é uma das formas mais fáceis e rápidas de se aplicar a
fórmula. O resultado aqui é gerado automaticamente.
Abaixo, gostaríamos de saber se a idade tem relação ou não com o aumento do peso
dos indivíduos.
Porém, quando se trata de mais de duas variáveis é interessante utilizar outro método
igualmente simples.
No Excel, também pode ser feito o gráfico de dispersão. Aliás, a ferramenta é muito
útil para verificar de forma visual a existência ou não de relação entre duas
variáveis.
A tabela formulada por essa análise indica a correlação entre todos os pares das
variáveis exibidas. O profissional de Data Science a utiliza, portanto, para uma
observação dos dados antes de começar a análise quantitativa.
Após a aplicação das fórmulas você chegará ao valor do coeficiente. Mas, como
interpretá-lo? Confira a seguir!
Quanto mais próxima dos extremos, mais forte ela é (tem associação). Quanto mais ao
meio, próximo ao zero, mais fraca ela se torna. Logo, não há associação ou relação.
O teste de correlação de Pearson é usado para quem busca verificar se uma medida
tem relação com a outra, ou seja, se são conexas. Profissionais das mais diversas áreas
aplicam as fórmulas para verificar interdependência entre variáveis.
E o que fazer se isso ocorrer? Identifique a causa do valor extremo e faça a correção
dos erros de entrada de dados ou de medidas. Ou ainda, retire os valores de dados
associados a eventos atípicos, sendo causas especiais.
É importante você saber que, ao utilizar o coeficiente de correlação, ele não é uma
medida resistente e pode ser influenciado pela existência nos dados de alguns valores
estranhos ou outliers.