Você está na página 1de 15

Coeficiente de correlação de Pearson

O coeficiente de correlação de Pearson é uma fórmula estatística muito útil que mede
a força entre variáveis e relacionamentos. No campo das estatísticas, essa fórmula é
freqüentemente chamada de teste R de Pearson . Ao conduzir um teste estatístico
entre duas variáveis, é uma boa ideia conduzir um valor de coeficiente de correlação
de Pearson para determinar o quão forte é a relação entre essas duas variáveis.

Fórmula
Para determinar o quão forte é a relação entre duas variáveis, uma fórmula deve ser
seguida para produzir o que é referido como o valor do coeficiente . O valor do
coeficiente pode variar entre -1,00 e 1,00. Se o valor do coeficiente estiver na faixa
negativa, isso significa que a relação entre as variáveis está negativamente
correlacionada ou, conforme um valor aumenta, o outro diminui. Se o valor estiver na
faixa positiva, isso significa que a relação entre as variáveis está positivamente
correlacionada ou ambos os valores aumentam ou diminuem juntos. Vejamos a
fórmula para conduzir o valor do coeficiente de correlação de Pearson.

Etapa um: Faça um gráfico com seus dados para duas variáveis, rotulando as variáveis
( x ) e ( y ), e adicione mais três colunas rotuladas ( xy ), ( x ^ 2) e ( y ^ 2). Um gráfico
de dados simples pode ter a seguinte aparência:

Pontuação
Pessoa Idade ( x ) ( y ) ( xy ) ( x ^ 2) ( y ^ 2)
Mais dados seriam necessários, mas apenas três amostras são mostradas para fins de
exemplo.

Etapa dois: complete o gráfico usando a multiplicação básica dos valores das
variáveis.

Pontuação
Pessoa Idade ( x ) ( y ) ( xy ) ( x ^ 2) ( y ^ 2)

Etapa três: depois de multiplicar todos os valores para completar o gráfico, some
todas as colunas de cima para baixo.

Pontuação
Pessoa Idade ( x ) ( y ) ( xy ) ( x ^ 2) ( y ^ 2)
Etapa quatro: use esta fórmula para encontrar o valor do coeficiente de correlação de
Pearson.

Fórmula do coeficiente de correlação de Pearson

Etapa cinco: Depois de completar a fórmula acima, inserindo todos os valores


corretos, o resultado é o valor do coeficiente! Se o valor for um número negativo,
então há uma correlação negativa da força do relacionamento, e se o valor for um
número positivo, então há uma correlação positiva da força do relacionamento. Nota:
Os exemplos acima mostram apenas dados para três pessoas, mas o tamanho de
amostra ideal para calcular um coeficiente de correlação de Pearson deve ser superior
a dez pessoas.

Exemplos
Digamos que você esteja analisando a relação entre a idade de seus participantes e o
nível de renda relatado. Você está curioso para saber se existe uma relação positiva ou
negativa entre a idade de alguém e seu nível de renda. Depois de conduzir o teste, o
valor do coeficiente de correlação de Pearson é +0,20. Portanto, você teria uma
correlação ligeiramente positiva entre as duas variáveis, de modo que a força da
relação também é positiva e considerada forte. Você pode concluir com segurança que
há uma forte relação e correlação positiva entre a idade e a renda de uma pessoa. Em
outras palavras, conforme as pessoas envelhecem, sua renda tende a aumentar
também.

Talvez você esteja interessado em aprender mais sobre a força do relacionamento do


índice de ansiedade de seus participantes e o número de horas que trabalham por
semana. Depois de realizar o teste, o valor do coeficiente de correlação de Pearson é -
0,08. Portanto, você teria uma correlação negativa entre as duas variáveis e a força da
relação seria fraca. Você pode concluir com segurança que há uma relação fraca e
correlação negativa entre o índice de ansiedade de uma pessoa e quantas horas por
semana ela relatou trabalhar. Portanto, aqueles que pontuaram alto em ansiedade
tenderiam a relatar menos horas de trabalho por semana, enquanto aqueles que
tiveram pontuação mais baixa em ansiedade tenderiam a relatar mais horas de
trabalho a cada semana.

Significado
Uma discussão sobre o coeficiente de correlação de Pearson não estaria completa se
não falássemos sobre significância estatística . Na realização de testes estatísticos, a
significância estatística deve estar presente para estabelecer uma probabilidade dos
resultados sem erro.

O símbolo estatístico de significância é denotado


como p . O p significa probabilidade . No campo das ciências sociais, o valor
associado a p é geralmente definido para representar 0,05 ou menos. O que isto
significa? Definir um valor p em 0,05 ou inferior significa que há menos chance de
erro. Este sistema de relatório de erros (probabilidade) estabelece significância
estatística e precisão entre os resultados dos testes estatísticos.

Se o valor p resultar em 0,04, haverá uma chance ainda menor de erro nos


resultados. Quanto menor o valor p , mais precisa é a significância estatística e menor
a chance de erro. Idealmente, você deseja que seus testes estatísticos resultem em
um valor p tão pequeno quanto possível. Você deve encontrar a significância
estatística para continuar avançando conduzindo o coeficiente de correlação de
Pearson.
Resumo da lição
O coeficiente de correlação de Pearson , frequentemente referido como o teste R de
Pearson , é uma fórmula estatística que mede a força entre variáveis e
relacionamentos. Para determinar o quão forte é a relação entre duas variáveis, você
precisa encontrar o valor do coeficiente , que pode variar entre -1,00 e 1,00. Se o valor
do coeficiente estiver na faixa negativa, isso significa que a relação entre as variáveis
está negativamente correlacionada - conforme um valor aumenta, o outro diminui. Se
o valor estiver na faixa positiva, isso significa que a relação entre as variáveis
está positivamente correlacionada ou ambos os valores aumentam ou diminuem
juntos.

Dados não agrupados: exemplos e exercícios resolvidos

Desagrupados dados são aqueles que, obtido a partir de um estudo, no entanto, não


são organizadas por classe. Quando é um número gerenciável de dados, geralmente 20
ou menos, e há poucos dados diferentes, eles podem ser tratados como informações
não agrupadas e extraídas.

Os dados não agrupados são provenientes da pesquisa ou estudo realizado para obtê-
los e, portanto, carecem de processamento. Vamos ver alguns exemplos:
Resultados de um teste de QI realizado em 20 estudantes aleatórios de uma
universidade. Os dados obtidos foram os seguintes:

119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124,
112, 112,106

-Idade de 20 funcionários de uma cafeteria muito popular:

24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20

-A média das notas finais de 10 alunos de uma aula de matemática:

3,2; 3.1; 2.4; 4,0; 3,5; 3,0; 3,5; 3,8; 4.2; 4.9

Propriedades de dados

Existem três propriedades importantes que caracterizam um conjunto de dados


estatísticos, sejam eles agrupados ou não, que são:

-Posição , que é a tendência dos dados para agrupar em torno de certos valores.

– Dispersão , uma indicação de quão dispersos ou dispersos os dados estão em torno


de um determinado valor.

-Forma , refere-se à maneira como os dados são distribuídos, o que pode ser visto
quando um gráfico é construído. Existem curvas muito simétricas e também
inclinadas, à esquerda ou à direita de um certo valor central.

Para cada uma dessas propriedades, há uma série de medidas que as descrevem. Uma
vez obtidos, eles nos fornecem uma visão geral do comportamento dos dados:

Relacionado:  Teste Mann U - Whitney: o que é e quando aplicado, execução,


exemplo

-As medidas de posição mais usadas são a média aritmética ou simplesmente média, a
mediana e o modo.
– Faixa, variação e desvio padrão são frequentemente usados na dispersão, mas não
são as únicas medidas de dispersão.

-E para determinar a forma, a média e a mediana são comparadas através do viés,


como será visto em breve.

Cálculo da média, mediana e moda

– A média aritmética , também conhecida como média e denotada como X, é


calculada da seguinte forma:

X = (x 1 + x 2 + x 3 +… .. x n ) / n

Onde x 1 , x 2 ,…. x n, são os dados en é o total deles. Em notação de soma, temos:

– A mediana é o valor que aparece no meio de uma sequência ordenada de dados;
portanto, para obtê-lo, é necessário ordenar os dados antes de qualquer outra coisa.

Se o número de observações for ímpar, não há problema em encontrar o ponto médio


do conjunto, mas se tivermos um número par de dados, os dois dados centrais serão
pesquisados e calculados a média.

– O modo é o valor mais comum observado no conjunto de dados. Nem sempre
existe, pois é possível que um valor se repita com mais frequência que outro. Também
pode haver dois dados com a mesma frequência; nesse caso, estamos falando de uma
distribuição bimodal.

Diferentemente das duas medidas anteriores, a moda pode ser usada com dados
qualitativos.

Vamos ver como essas medidas de posição são calculadas com um exemplo:

Exemplo resolvido

Suponha que desejamos determinar a média aritmética, a mediana e o modo no


exemplo proposto no início: as idades de 20 funcionários da cafeteria:

Correlação de Pearson: entenda esse coeficiente


PORREDAÇÃO XP EDUCAÇÃO

22/04/2022
ATUALIZADO: 25/05/2022
A correlação de Pearson é um teste estatístico que pode ser usado no cotidiano de
profissionais diversos. Por norma, é empregada para manusear e obter entendimento
sobre as variáveis indicadas.

Com ela, é possível compreender sobre a aplicabilidade das mais variadas fórmulas,
principalmente as utilizadas por cientistas de dados. Isso é fundamental para quem
deseja se tornar um profissional especialista e multidisciplinar na área, em um
mercado cada vez mais competitivo.

Por isso, preparamos um guia completo sobre o que é a correlação de Pearson e como
usar a fórmula para obter os resultados desejados, sem dar margem para erros.

Neste conteúdo, você vai ver:


 Por que correlação de Pearson?
 Para que serve o coeficiente de correlação linear?
 Para que serve o coeficiente de correlação linear?
 Como calcular o coeficiente de correlação de Pearson?
 Como interpretar os valores do resultado?
 Quem pode utilizar a correlação de Pearson?
 Quais os desafios da Correlação de Pearson? 
 Onde aprofundar os conhecimentos em estatística?

Por que correlação de Pearson?

A fórmula quantitativa também pode ser chamada r de Pearson ou de coeficiente de


correlação produto-momento. Mas, por que “Pearson”? 

Logicamente, a fórmula recebe este nome devido às descobertas de Karl Pearson. Este
contribuiu significativamente para os estudos na área de exatas. Contudo, essas não se
limitam ao campo da estatística, mas permeiam por outras áreas como ciências
sociais. 
Para que serve o coeficiente de correlação linear?

O coeficiente de correlação de Pearson (r) é um teste cujo objetivo é medir o grau


de correlação linear entre duas variáveis quantitativas, atributo ou característica de
determinado assunto.

A mensuração pode ser em relação à direção ou intensidade. Intensidade trata do


relacionamento entre as variáveis indicadas. Já a direção é o tipo de correlação
(positiva ou direta; negativa ou inversa).

Na prática, é um índice dimensional “r” com valores que variam dos extremos entre -
1 e +1, resultando na intensidade de uma relação linear entre dois conjuntos de dados.
Se não houver linearidade entre os elementos associados, o coeficiente não será
apresentado adequadamente. Logo, isso pode causar impactos nos resultados.

Importante saber que o coeficiente (resultado “r”) não tem unidade física de definição,
sendo adimensional (número puro).

Para que serve o coeficiente de correlação linear?

O coeficiente de correlação de Pearson (r) é um teste cujo objetivo é medir o grau


de correlação linear entre duas variáveis quantitativas, atributo ou característica de
determinado assunto.

A mensuração pode ser em relação à direção ou intensidade. Intensidade trata do


relacionamento entre as variáveis indicadas. Já a direção é o tipo de correlação
(positiva ou direta; negativa ou inversa).

Na prática, é um índice dimensional “r” com valores que variam dos extremos entre -
1 e +1, resultando na intensidade de uma relação linear entre dois conjuntos de dados.
Se não houver linearidade entre os elementos associados, o coeficiente não será
apresentado adequadamente. Logo, isso pode causar impactos nos resultados.

Importante saber que o coeficiente (resultado “r”) não tem unidade física de definição,
sendo adimensional (número puro).
Como calcular o coeficiente de correlação de Pearson?

Calcular o coeficiente de correlação de Pearson é muito simples e de fácil


entendimento. Para isto, você deve possuir:

 Duas medidas provenientes de uma mesma unidade amostral e


  Duas unidades dependentes avaliadas de forma quantitativa (em números).
É válido também pontuar que, na correlação linear simples, estão envolvidas no
cálculo somente duas variáveis.

Portanto, essa atividade matemática pode ser realizada através de uma fórmula
manual (como exemplificada a seguir) ou ainda utilizando algumas ferramentas
computadorizadas, o Python ou Excel.

Fórmula Manual

O teste para encontrar o coeficiente de correlação de Pearson pode ser feito seguindo
a seguinte fórmula:

Análise de correlação de Pearson no Python

Considerada a mais utilizada pelos engenheiros de dados, Python é uma


linguagem open source de alto nível e que pode ser utilizada para calcular o
coeficiente de correlação linear de Pearson.

O primeiro passo é ir ao menu lateral esquerdo. Posteriormente, na guia Files, clique


em “Upload“, depois no conjunto de dados em formato (.csv). Assim, clique duas
vezes no respectivo arquivo, depois em “ok” e o programa selecionará os dados.

O segundo passo é escolher e realizar a importação das bibliotecas que serão


utilizadas, podendo ser:

 Pandas,
 Numpy,
 Seaborn,
 Scipy e/ou
 Stats Models.

Coeficiente na correlação de Pearson no Excel

Com os dados em mãos, você pode montar uma tabela em um editor de planilhas. É
possível, portanto, realizar o cálculo no Microsoft Excel ou Google Spreadsheets.

Calcular a correlação em Excel é uma das formas mais fáceis e rápidas de se aplicar a
fórmula. O resultado aqui é gerado automaticamente.

Antes de fazer a análise, no entanto, é preciso realizar a extração dos dados


medidos. Geralmente é esperada a construção de estruturas e soluções para o
armazenamento, processamento e integração de dados, contidos estes em um Big
Data.

Vamos fornecer um exemplo que ilustra o cálculo da correlação:

Abaixo, gostaríamos de saber se a idade tem relação ou não com o aumento do peso
dos indivíduos.

Em uma coluna ao lado foi inserida a fórmula “=correl” (coluna+linhas


X;coluna+linhas Y).
Assim, o valor obtido é o seu coeficiente de correlação. Para deixar ainda mais
prático, é importante ter em mente que no ato do cálculo a ordem dos fatores não
importa.

Porém, quando se trata de mais de duas variáveis é interessante utilizar outro método
igualmente simples.

Siga o passo a passo:

1. Abrir a aba “Dados” e clicar em “Analisar dados”;


2. Será aberta uma caixa de seleção com várias análises estatísticas. Selecione
“Correlação”;
3. Na próxima caixa de seleção que for aberta, você seleciona os dados e
opções de plotagem do resultado;
4.  Você pode escolher por exibir os resultados na mesma planilha ou em
outra;
5. Por fim, será aberta a matriz de correlação.

Como fazer um gráfico de dispersão no Excel 

No Excel, também pode ser feito o gráfico de dispersão. Aliás, a ferramenta é muito
útil para verificar de forma visual a existência ou não de relação entre duas
variáveis.

1. Insira os dados nas colunas,


2. Selecione as colunas e linhas que serão analisadas,
3. Clique no índice em inserir e
4. Posteriormente, selecione gráfico e clique na “dispersão”.
Confira abaixo:

Matriz de correlação de Pearson


Na prática, é a forma de disposição ordenada de um conjunto de elementos
para análise estatística em planilhas (linhas e colunas).

A tabela formulada por essa análise indica a correlação entre todos os pares das
variáveis exibidas. O profissional de Data Science a utiliza, portanto, para uma
observação dos dados antes de começar a análise quantitativa.

Quando a análise envolve grande número de variáveis e há interesse em conhecer a


correlação duas a duas, é comum a construção de uma matriz de correlações.

Como interpretar os valores do resultado?

Após a aplicação das fórmulas você chegará ao valor do coeficiente. Mas, como
interpretá-lo? Confira a seguir!

Quanto mais próxima dos extremos, mais forte ela é (tem associação). Quanto mais ao
meio, próximo ao zero, mais fraca ela se torna. Logo, não há associação ou relação.

Veja o esquema abaixo para entender melhor:

Coeficiente maior que zero

R = 1 Significa uma correlação perfeita positiva entre as duas variáveis.

Coeficiente menor que zero

R = -1 Significa uma correlação negativa perfeita entre as duas variáveis — Isto é, se


uma aumenta, a outra sempre diminui.

Coeficiente igual a zero

R = 0 Significa que as duas variáveis não dependem linearmente uma da outra. No


entanto, pode existir outra dependência que seja “não linear”. Assim, o resultado r=0
deve ser investigado por outros meios.
Quem pode utilizar a correlação de Pearson?

O teste de correlação de Pearson é usado para quem busca verificar se uma medida
tem relação com a outra, ou seja, se são conexas. Profissionais das mais diversas áreas
aplicam as fórmulas para verificar interdependência entre variáveis.

Quais os desafios da Correlação de Pearson? 

O coeficiente de correlação de Pearson é muito sensível a valores extremos de


dados. Um valor único que seja muito diferente dos outros valores de um conjunto
pode mudar consideravelmente o valor do coeficiente. 

E o que fazer se isso ocorrer? Identifique a causa do valor extremo e faça a correção
dos erros de entrada de dados ou de medidas. Ou ainda, retire os valores de dados
associados a eventos atípicos, sendo causas especiais.

Posteriormente, refaça a análise com os dados ajustados.

É importante você saber que, ao utilizar o coeficiente de correlação, ele não é uma
medida resistente e pode ser influenciado pela existência nos dados de alguns valores
estranhos ou outliers.

Você também pode gostar