Você está na página 1de 1

Neste vídeo, falaremos sobre a correlação entre diferentes variáveis.

Correlação é
uma métrica estatística para medindo em que medida diferentes variáveis são
interdependentes. Em outras palavras, quando olhamos para duas variáveis ao longo
do tempo, se uma variável muda como isso afeta a mudança na outra variável? Por
exemplo, o tabagismo é conhecido por estar correlacionado com o câncer de pulmão ,
uma vez que você tem uma chance maior de ter câncer de pulmão se você fuma. Em
outro exemplo, há uma correlação entre as variáveis guarda-chuva e chuva onde mais
precipitação significa que mais pessoas usam guarda-chuvas. Além disso, se não
chover, as pessoas não carregariam guarda-chuvas. Portanto, podemos dizer que
guarda-chuvas e chuva são interdependentes e, por definição, estão correlacionados.
É importante saber que a correlação não implica causalidade. Na verdade, podemos
dizer que o guarda-chuva e a chuva estão correlacionados, mas não teríamos
informações suficientes para dizer se o guarda-chuva causou a chuva ou a chuva
causou o guarda-chuva. Na ciência de dados geralmente lidamos mais com correlação.
Vejamos a correlação entre o tamanho do motor e o preço. Desta vez vamos visualizar
essas duas variáveis usando um gráfico de dispersão e uma linha linear adicionada
chamada uma linha de regressão, que indica a relação entre os dois. O objetivo
principal deste gráfico é ver se o tamanho do motor tem algum impacto no preço.
Neste exemplo, você pode ver que a linha reta através dos pontos de dados é muito
íngreme, o que mostra que há uma relação linear positiva entre as duas variáveis.
Com o aumento nos valores do tamanho do motor, valores de preço também subem e a
inclinação da linha é positiva. Portanto, há uma correlação positiva entre o
tamanho do motor e o preço. Podemos usar seaborn.regplot para criar o gráfico de
dispersão. Como outro exemplo, agora vamos olhar para a relação entre milhas de
rodovia por galão para ver seu impacto no preço do carro. Como podemos ver neste
gráfico, quando o valor da rodovia milhas por galão sobe o preço do valor desce.
Portanto, há uma relação linear negativa entre milhas de rodovia por galão e preço.
Embora esta relação seja negativa, a inclinação da linha é acentuada o que
significa que as milhas da rodovia por galão ainda é um bom preditor de preço.
Essas duas variáveis são consideradas como tendo uma correlação negativa.
Finalmente, temos um exemplo de uma correlação fraca. Por exemplo, tanto RPM de
pico baixo quanto valores altos de RPM de pico têm preços baixos e altos. Portanto,
não podemos usar RPM para prever os valores.

Você também pode gostar