Análise Descritiva de Dados com Pandas e Matplotlib

Neste vídeo, falaremos de Estatística Descritiva.
Quando você começa a analisar

dados, é importante primeiro explorar seus dados antes de gastar tempo criando
modelos complicados. Uma maneira fácil de fazer isso, é calcular algumas
Estatísticas Descritivas para seus dados. A análise estatística descritiva ajuda a
descrever características básicas de um conjunto de dados e obtém um breve resumo
sobre a amostra e as medidas dos dados. Vamos mostrar-lhe alguns métodos úteis
diferentes. Uma maneira em que podemos fazer isso é usando a função de descrever em
pandas. Usando a função Descrever e aplicá-la em seu quadro de dados, a função
Descrever calcula automaticamente estatísticas básicas para todas as variáveis
numéricas. Mostra a média, o número total de pontos de dados, o desvio padrão, os
quartis e os valores extremos. Todos os valores NAN são ignorados automaticamente
nessas estatísticas. Esta função lhe dará uma idéia clara da distribuição de suas
diferentes variáveis. Você também pode ter variáveis categóricas em seu conjunto de
dados. Estas são variáveis que podem ser divididas em diferentes categorias ou
grupos, e têm valores discretos. Por exemplo, em nosso conjunto de dados temos o
sistema de acionamento como uma variável categórica, que consiste nas categorias,
tração dianteira, tração traseira e tração nas quatro rodas. Uma maneira que você
pode resumir os dados categóricos, é usando a função value_counts. Podemos alterar
o nome da coluna para facilitar a leitura. Vemos que temos 118 carros na categoria
de tração dianteira. 75 carros na categoria de tração traseira e 8 carros na
categoria de tração nas quatro rodas. Os gráficos de caixa são uma ótima maneira de
visualizar dados numéricos, já que você pode visualizar as várias distribuições dos
dados. As principais características que o gráfico de caixa mostra, são a mediana
dos dados, que representa onde o ponto de dados do meio está. O quartil superior
mostra onde está o percentil 75. O quartil inferior mostra onde está o percentil
25. Os dados entre o quartil superior e inferior representam o intervalo
interquartil. Em seguida, você tem os extremos inferior e superior. Estes são
calculados como 1,5 vezes o intervalo interquartil, acima do percentil 75, e como
1,5 vezes o IQR abaixo do percentil 25. Finalmente, os gráficos de caixa também
exibem outliers como pontos individuais que ocorrem fora dos extremos superior e
inferior. Com gráficos de caixa, você pode facilmente detectar outliers e também
ver a distribuição e a assimetria dos dados. Os gráficos de caixa facilitam a
comparação entre grupos. Neste exemplo, usando o gráfico de caixa, podemos ver a
distribuição de diferentes categorias do recurso rodas motrizes sobre o recurso de
preço. Podemos ver que a distribuição do preço entre a tração traseira e as outras
categorias são distintas. Mas o preço da tração dianteira e tração nas quatro rodas
são quase indistinguíveis. Muitas vezes, tendemos a ver variáveis contínuas em
nossos dados. Estes pontos de dados são números contidos em algum intervalo. Por
exemplo, em nosso conjunto de dados preço e tamanho do motor são variáveis
contínuas. E se quisermos entender a relação entre o tamanho do motor e o preço. O
tamanho do motor poderia prever o preço de um carro? Uma boa maneira de visualizar
isso é usar um gráfico de dispersão. Cada observação no gráfico de dispersão é
representada como um ponto. Este gráfico mostra a relação entre duas variáveis. A
variável preditora, é a variável que você está usando para prever um resultado.
Neste caso, nossa variável preditora é o tamanho do motor. A variável de destino é
a variável que você está tentando prever. Neste caso, nossa variável-alvo é o
preço. Uma vez que este seria o resultado. Em um gráfico de dispersão, normalmente
definimos a variável preditora no eixo x ou eixo horizontal, e definimos a variável
alvo no eixo y ou eixo vertical. Neste caso, vamos traçar o tamanho do motor no
eixo x e o preço no eixo y. Estamos usando, as funções matplotlib dispersão aqui,
tendo em x e variável y. Algo a observar é que é sempre importante rotular seus
eixos e escrever um título geral de enredo, para que você saiba o que está olhando.
Agora, como o tamanho variável do motor está relacionado ao preço? A partir do
gráfico de dispersão, vemos que, à medida que o tamanho do motor sobe, o preço do
carro também sobe. Isso nos dá uma indicação inicial de que há uma relação linear
positiva entre essas duas variáveis. [ MUSIC]

Análise Descritiva de Dados com Pandas e Matplotlib

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise Descritiva de Dados com Pandas e Matplotlib

Enviado por

Direitos autorais:

Formatos disponíveis

Neste vídeo, falaremos de Estatística Descritiva.

Quando você começa a analisar

Você também pode gostar