Este vídeo discute estatística descritiva e vários métodos para resumir e visualizar dados, incluindo funções como Descrever, value_counts, gráficos de caixa e dispersão. Esses métodos ajudam a explorar dados antes de criar modelos complexos, mostrando características como médias, desvios padrão e distribuições de variáveis numéricas e categóricas.
Este vídeo discute estatística descritiva e vários métodos para resumir e visualizar dados, incluindo funções como Descrever, value_counts, gráficos de caixa e dispersão. Esses métodos ajudam a explorar dados antes de criar modelos complexos, mostrando características como médias, desvios padrão e distribuições de variáveis numéricas e categóricas.
Este vídeo discute estatística descritiva e vários métodos para resumir e visualizar dados, incluindo funções como Descrever, value_counts, gráficos de caixa e dispersão. Esses métodos ajudam a explorar dados antes de criar modelos complexos, mostrando características como médias, desvios padrão e distribuições de variáveis numéricas e categóricas.
dados, é importante primeiro explorar seus dados antes de gastar tempo criando modelos complicados. Uma maneira fácil de fazer isso, é calcular algumas Estatísticas Descritivas para seus dados. A análise estatística descritiva ajuda a descrever características básicas de um conjunto de dados e obtém um breve resumo sobre a amostra e as medidas dos dados. Vamos mostrar-lhe alguns métodos úteis diferentes. Uma maneira em que podemos fazer isso é usando a função de descrever em pandas. Usando a função Descrever e aplicá-la em seu quadro de dados, a função Descrever calcula automaticamente estatísticas básicas para todas as variáveis numéricas. Mostra a média, o número total de pontos de dados, o desvio padrão, os quartis e os valores extremos. Todos os valores NAN são ignorados automaticamente nessas estatísticas. Esta função lhe dará uma idéia clara da distribuição de suas diferentes variáveis. Você também pode ter variáveis categóricas em seu conjunto de dados. Estas são variáveis que podem ser divididas em diferentes categorias ou grupos, e têm valores discretos. Por exemplo, em nosso conjunto de dados temos o sistema de acionamento como uma variável categórica, que consiste nas categorias, tração dianteira, tração traseira e tração nas quatro rodas. Uma maneira que você pode resumir os dados categóricos, é usando a função value_counts. Podemos alterar o nome da coluna para facilitar a leitura. Vemos que temos 118 carros na categoria de tração dianteira. 75 carros na categoria de tração traseira e 8 carros na categoria de tração nas quatro rodas. Os gráficos de caixa são uma ótima maneira de visualizar dados numéricos, já que você pode visualizar as várias distribuições dos dados. As principais características que o gráfico de caixa mostra, são a mediana dos dados, que representa onde o ponto de dados do meio está. O quartil superior mostra onde está o percentil 75. O quartil inferior mostra onde está o percentil 25. Os dados entre o quartil superior e inferior representam o intervalo interquartil. Em seguida, você tem os extremos inferior e superior. Estes são calculados como 1,5 vezes o intervalo interquartil, acima do percentil 75, e como 1,5 vezes o IQR abaixo do percentil 25. Finalmente, os gráficos de caixa também exibem outliers como pontos individuais que ocorrem fora dos extremos superior e inferior. Com gráficos de caixa, você pode facilmente detectar outliers e também ver a distribuição e a assimetria dos dados. Os gráficos de caixa facilitam a comparação entre grupos. Neste exemplo, usando o gráfico de caixa, podemos ver a distribuição de diferentes categorias do recurso rodas motrizes sobre o recurso de preço. Podemos ver que a distribuição do preço entre a tração traseira e as outras categorias são distintas. Mas o preço da tração dianteira e tração nas quatro rodas são quase indistinguíveis. Muitas vezes, tendemos a ver variáveis contínuas em nossos dados. Estes pontos de dados são números contidos em algum intervalo. Por exemplo, em nosso conjunto de dados preço e tamanho do motor são variáveis contínuas. E se quisermos entender a relação entre o tamanho do motor e o preço. O tamanho do motor poderia prever o preço de um carro? Uma boa maneira de visualizar isso é usar um gráfico de dispersão. Cada observação no gráfico de dispersão é representada como um ponto. Este gráfico mostra a relação entre duas variáveis. A variável preditora, é a variável que você está usando para prever um resultado. Neste caso, nossa variável preditora é o tamanho do motor. A variável de destino é a variável que você está tentando prever. Neste caso, nossa variável-alvo é o preço. Uma vez que este seria o resultado. Em um gráfico de dispersão, normalmente definimos a variável preditora no eixo x ou eixo horizontal, e definimos a variável alvo no eixo y ou eixo vertical. Neste caso, vamos traçar o tamanho do motor no eixo x e o preço no eixo y. Estamos usando, as funções matplotlib dispersão aqui, tendo em x e variável y. Algo a observar é que é sempre importante rotular seus eixos e escrever um título geral de enredo, para que você saiba o que está olhando. Agora, como o tamanho variável do motor está relacionado ao preço? A partir do gráfico de dispersão, vemos que, à medida que o tamanho do motor sobe, o preço do carro também sobe. Isso nos dá uma indicação inicial de que há uma relação linear positiva entre essas duas variáveis. [ MUSIC]