Escolar Documentos
Profissional Documentos
Cultura Documentos
Essas são algumas perguntas que pretendo responder nesse pequeno estudo, de forma
clara e direta. Não vou aprofundar conceitos estatísticos. Esses conceitos são muito
importantes, mas não é meu objetivo nesse momento. A ideia dessa pesquisa é fazer
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 1/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
um “direto ao ponto”, em que vou preparar o mínimo necessário para utilizar o Pandas
e interpretar os resultados, agregando importantes informações ao seu projeto.
O que é correlação?
A definição inicial resume bem a ideia: a correlação indica a interdependência entre
duas ou mais variáveis.
Mas em muitos casos essa relação não é aparente, e assim devemos recorrer a métodos
mais confiáveis de detecção. Dentre os métodos mais comuns temos os índices de
Pearson, Spearman e Kendall. Vamos falar um pouco sobre esses índices.
A formula desenvolvida por Karl Pearson, há mais de 120 anos, continua a ser a mais
utilizada para o cálculo da correlação.
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 2/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Interpretando o valor de ρ
0.9 a 1 positivo ou negativo indica uma correlação muito forte.
Em uma relação monotônica, as variáveis tendem a mudar juntas mas não necessariamente a uma taxa
constante (Fonte: data Analysis — Bui Tram).
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 3/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
As fórmulas são grandes, mas a forma de calcular é simples. Aqui você encontra um
exemplo prático, com os cálculos, sobre a correlação entre o QI de uma pessoa e o
número de horas em que assiste televisão por semana.
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 4/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Pares concordantes:
(1,7) e (5,9)
(2,5) e (4,6)
(2,5) e (5,9)
(3,1) e (4,6)
(3,1) e (5,9)
(4,6) e (5,9)
Pares discordantes:
(1,7) e (2,5)
(1,7) e (3,1)
(1,7) e (4,6)
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 5/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
(2,5) e (3,1)
Um exemplo real interessante pode ser encontrado no artigo Correlação não implica
necessariamente causalidade, de Marco Filipe:
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 6/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Fonte: http://comcept.org/cepticismo/correlacao-nao-implica-necessariamente-causalidade
Fonte: https://www.tylervigen.com/spurious-correlations
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 7/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Fonte: https://www.tylervigen.com/spurious-correlations
Fonte: https://www.tylervigen.com/spurious-correlations
A ideia é verificar qual característica do veículo está mais associada ao seu consumo de
combustível ( mpg: miles per gallon - milhas(1,6 km) por galão( 3,78 litros)).
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 8/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Pequeno pré-processamento.
Pode-se observar que faltam 6 valores na coluna horsepower. Vamos preencher essas
lacunas com a média de potência de acordo com o número de cilindros do motor. Foi a
forma que escolhi. Existem várias possibilidades.
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 9/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 10/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Eu optei por fazer esse processo, mas o pandas consegue trabalhar bem mesmo com
alguns dados ausentes.
Pandas
O pandas nos fornece a função corr() para calcular a correlação entre duas colunas.
Vamos verificar a correlação entre o peso do veículo e seu desempenho mpg:
Como esperado existe uma forte correlação negativa entre o desempenho e o peso do
veículo. Quanto mais pesado menor é o desempenho mpg.
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 11/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
Conclusão
A correlação nos indica a interdependência entre duas ou mais variáveis. É uma
informação importante, que pode ser aplicada em várias situações.
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 12/13
5/12/2021 Correlação: direto ao ponto.. Correlação: interdependência entre duas… | by Rodrigo Salles | BrData | Medium
O pandas nos permite obter a correlação de forma rápida, de acordo com o método
desejado, mas devemos ter especial atenção à interpretação dos resultados. Como foi
dito, correlação não implica necessariamente uma relação de causalidade.
De forma geral a correlação é mais uma ferramenta que pode nos auxiliar na
construção de modelos mais confiáveis.
Referências
https://www.datascience.com/learn-datscience/fundamentals/introduction-to-
correlation-python-data-science
https://bloqm.wordpress.com/2013/10/13/coeficiente-de-correlacao-de-postos-de-
spearman
https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_postos_
de_Spearman
http://www.statisticshowto.com/kendalls-tau
http://comcept.org/cepticismo/correlacao-nao-implica-necessariamente-causalidade
https://medium.com/brdata/correlação-direto-ao-ponto-9ec1d48735fb 13/13