Você está na página 1de 12

ESTI – ESCOLA SUPERIOR DA TECNOLOGIA DA INFORMAÇÃO

Matéria: Ciência de dados para o esporte

Prof: Diego da Silva Rodrigues

Rio Grande de Janeiro, 21 de dezembro de 2023


Análise Exploratória de Dados e Visualizações Gráficas

Código Inicial:

Objetivo: Carregar os dados do arquivo CSV para o DataFrame df.

Visualizações Gráficas:

2. Scatter Plot para Altura e Peso por Tipo de Prancha

11 de 712
Objetivo: Analisar a relação entre a altura e o peso dos surfistas em relação ao tipo
de prancha que eles usam.

Interpretação Estatística: O gráfico de dispersão mostra a distribuição dos dados e


ajuda a identificar padrões ou agrupamentos.

Boxplot para Experiência por Tipo de Prancha:

Objetivo: Investigar como a experiência dos surfistas se distribui em diferentes tipos


de pranchas.

Interpretação Estatística: O boxplot revela a dispersão, a mediana e os quartis da


experiência para cada tipo de prancha, facilitando a compreensão da variabilidade.

12 de 712
Contagem de Tipos de Prancha por Gênero:

Objetivo: Contar a quantidade de cada tipo de prancha, distinguindo por gênero.

Interpretação Estatística: O gráfico de contagem proporciona uma visão rápida da


distribuição dos tipos de prancha entre diferentes gêneros.

Matriz de Correlação:

13 de 712
5. Conversão de Variáveis Categóricas e Matriz de Correlação:

Objetivo: Compreender as relações lineares entre as variáveis numéricas e


categóricas, destacando a intensidade e a direção da correlação.

Interpretação Estatística: O mapa de calor apresenta os coeficientes de correlação,


indicando a força e a direção das associações entre as variáveis.

14 de 712
Tratamento de Dados Ausentes:

Valores ausentes nas colunas numéricas são preenchidos com a média, enquanto valores
nas colunas categóricas são preenchidos com a moda.

Definição de Features e Variável Alvo:

As features (variáveis independentes) e a variável alvo (aquilo que queremos prever) são
especificadas. Neste caso, as features incluem informações como altura, peso,
comprimento da prancha, etc., enquanto a variável alvo é o tipo de prancha.

Divisão do Conjunto de Dados em Treino e Teste:

15 de 712
Os dados são divididos em conjuntos de treino e teste para avaliar o desempenho do
modelo.

Pré-processamento das Features Categóricas:

Um pré-processador é criado para aplicar a codificação one-hot à feature categórica


'surfer_experience'.

Construção do Modelo:

Um modelo de Random Forest é construído usando um pipeline que inclui o pré-


processamento e o classificador.

Avaliação do Modelo:

O modelo é avaliado utilizando métricas como acurácia e um relatório de classificação, que


fornece informações mais detalhadas sobre o desempenho do modelo para cada classe de
prancha.

Em resumo, o código representa a aplicação de técnicas de machine learning para


automatizar a predição do tipo de prancha de surfe com base em dados disponíveis,
proporcionando uma análise preditiva útil para surfistas e entusiastas do esporte.

16 de 712
Acurácia: 0.61 (ou 61%):

A acurácia representa a proporção de predições corretas em relação ao total de predições.


Neste caso, o modelo acertou aproximadamente 61% das vezes.

Relatório de Classificação:

O relatório fornece métricas de desempenho para cada classe de prancha. Aqui estão as
principais métricas:

Precision (Precisão): A precisão indica a proporção de predições positivas corretas em


relação ao total de predições positivas. Por exemplo, para 'Shortboard', a precisão é de
61%, o que significa que 61% das predições de 'Shortboard' estavam corretas.

Recall (Revocação): O recall indica a proporção de instâncias positivas corretamente


identificadas em relação ao total de instâncias positivas. Para 'Shortboard', o recall é
100%, indicando que o modelo identificou corretamente todas as instâncias de
'Shortboard'.

17 de 712
F1-Score: O F1-Score é uma métrica que combina precisão e recall. Representa a média
harmônica entre essas duas métricas, proporcionando uma visão equilibrada do
desempenho.

Suporte (Support):

O suporte é o número real de ocorrências de cada classe no conjunto de teste. Por


exemplo, há 20 instâncias de 'Shortboard' no conjunto de teste.

Observações:

Nota-se que para as classes 'All-around', 'Fish' e 'Groveler', as métricas são baixas,
indicando que o modelo tem dificuldade em prever corretamente essas classes. A classe
'Shortboard' apresenta uma boa precisão, recall e F1-Score.

Macro e Weighted Avg:

As médias macro e ponderada fornecem uma visão geral das métricas. A média
ponderada dá mais peso às classes com mais instâncias, enquanto a média macro trata
todas as classes igualmente.

Em resumo, o modelo tem um desempenho razoável, mas mostra dificuldade em


classificar algumas classes específicas de pranchas ('All-around', 'Fish', 'Groveler'). A
análise dessas métricas ajuda a compreender a eficácia do modelo em diferentes
contextos e fornece insights sobre áreas que podem ser aprimoradas.

18 de 712
Relação entre Altura e Peso dos Surfistas:

A análise de dispersão (scatter plot) para altura e peso dos surfistas, categorizados pelo
tipo de prancha, pode indicar se há uma tendência ou relação entre essas variáveis. Essa
análise pode ajudar a entender se diferentes tipos de pranchas são mais adequados para
surfistas com características físicas específicas.

Impacto da Experiência do Surfista:

19 de 712
O boxplot para a experiência do surfista em relação ao tipo de prancha fornece
informações sobre como a experiência do surfista pode influenciar na escolha da prancha.
Surfistas mais experientes podem preferir certos tipos de prancha, e isso pode ser
observado nas estatísticas de tendência central e dispersão.

Distribuição por Gênero:

A contagem de tipos de prancha por gênero oferece insights sobre as preferências de


prancha entre homens e mulheres. Isso pode ser relevante para entender se determinados
tipos de pranchas são mais populares em um grupo demográfico específico.

Matriz de Correlação:

A matriz de correlação destaca as relações lineares entre variáveis numéricas. Por


exemplo, a correlação entre o comprimento da prancha e o volume pode indicar como
essas características estão relacionadas. Correlações mais fortes podem sugerir uma
relação mais significativa.

Modelo de Machine Learning:

O modelo de machine learning treinado pode ser usado para fazer previsões sobre o tipo
de prancha com base em várias características do surfista e da prancha. As métricas de
desempenho do modelo indicam a eficácia geral e em classes específicas.

110 de 712
Repositório

https://github.com/Lcooser/ProgramaTeste

111 de 712

Você também pode gostar