Vijaya ML

Problema 1:
Você é contratado por um dos principais canais de notícias CNBE que quer analisar as últimas eleições.
Esta pesquisa foi realizada com 1525 eleitores com 9 variáveis. Você tem que construir um modelo,
prever em qual partido o eleitor vai votar com base nas informações dadas, criar uma pesquisa de boca
de urna que ajude a prever a vitória geral e os assentos cobertos por um determinado partido.
1.1 Leia o conjunto de dados. Faça as estatísticas descritivas e faça a verificação de condição de valor
nulo. Escreva uma inferência sobre ele. (4 Marcas)
AED (Análise Exploratória de Dados)
O primeiro passo para fazer a análise é importar todas as bibliotecas necessárias. Em seguida,
precisamos carregar o conjunto de dados fornecido. Para descobrir as entradas no conjunto de
dados, usamos head()
A partir do resultado acima, deduzimos que, existem um total de 10 colunas com 1525 entradas em
cada coluna. Os tipos de dados de todas as variáveis são inteiros, exceto "voto" e "gênero", que é
objeto.
Para prosseguir, podemos remover a coluna "sem nome", pois isso não será capaz de analisar.
Depois de remover o "unnamed", nosso conjunto de dados terá a aparência de
Descrição dos dados:
Verificando as duplicatas:
Nº total de valores duplicados = 8
O número de valores duplicados é muito menor, então podemos descartá-los e

prosseguir.
2. Realizar análise univariada e bivariada. Fazer dados exploratórios

análise. Verifique se há outliers.
Análise Univariada e Verificação de Outlier

A Análise Exploratória de Dados é realizada principalmente usando os seguintes métodos:
Análise univariada:- fornece estatísticas de resumo para cada campo no conjunto de dados brutos
(ou) resumo apenas em uma variável. Ex:- CDF, PDF, Gráfico da caixa.
Análise bivariada:- é realizada para encontrar a relação entre cada variável no conjunto de dados
e a variável alvo de interesse (ou) usando 2 variáveis e encontrar a relação entre elas. Ex:-Lote de
caixa, Enredo de violino.
Análise multivariada:- é realizada para entender interações entre diferentes campos no conjunto
de dados (ou) encontrar interações entre variáveis mais de 2. Ex:- Gráfico de pares e gráfico de
dispersão 3D.
Análise Univariada:
Histograma:
1. Economic.cond.Nacional:
Análise Multivariada:
Mapa de calor:
Não há correlação entre nenhuma variável.
Preparação dos dados:

1. Codifique os dados (com valores de cadeia de caracteres) para Modelagem. O Scaling é
necessário aqui ou não? Divisão de dados: Divida os dados em treinamento e teste (70:30).
Codificando o conjunto de dados .
O dimensionamento é necessário para o modelo KNN.

1.4 Aplicar Regressão Logística e LDA (análise discriminante linear). (4 marcas)
MODELO 1: REGRESSÃO LOGÍSTICA
Precisamos aplicar a regressão logística e ajustar o modelo.

Prevendo o treinamento e os dados de teste.
Depois de prever, temos que encontrar a precisão dos dados de treinamento e teste.
Precisão do conjunto de treinamento:
Precisão do conjunto de testes:
Matriz de confusão e classificação para dados de treinamento:

Confusão e matriz de classificação para dados de teste:
Com base na precisão do treinamento e no resultado dos dados de teste, o modelo é bom
de usar. A precisão e os valores de recordação também são bons.
Modelo 2: LDA
Primeiramente, aplicou-se o modelo LDA e ajustou-se o conjunto de dados. Mais tarde,
previmos o treinamento de dados e os testes.
Precisão do trem:
Precisão do teste:
Confusão e Matriz de Classificação para Conjunto de Treinamento:
Confusão e matriz de classificação para conjunto de testes:
O modelo LDA também está tendo boa precisão e tendo bons valores de precisão.
1.5 Aplicar o Modelo KNN e o Modelo Bayes Ingênuo. Interprete os resultados. (4 marcas)
MODELO 3: KNN
KNN e ajuste dos dados de treinamento
Prevendo o treinamento e os testes:
Precisão para o conjunto de treinamento:
Precisão para o conjunto de testes:
Confusão e Matriz de Classificação para conjunto de treinamento:

Matriz de Confusão e Classificação para conjunto de testes:
Com base em nosso estudo, entendemos que o modelo KNN está tendo boa acurácia tanto para o
treinamento quanto para as séries de teste com bom escore de precisão.
MODELO INGÊNUO DE BAYES:
Depois de modelar e ajustar o conjunto de dados, os valores de previsão são os seguintes:
Precisão do conjunto de treinamento:
Precisão do conjunto de testes:

Matriz de classificação e confusão para dados de treinamento:
Matriz de classificação e confusão para dados de teste:
1.6 Ajuste de Modelo, Ensacamento (Floresta Aleatória deve ser aplicada para Ensacamento) e
Boosting. (7 marcas)
Ada Impulsionamento
A pontuação de previsão para o conjunto de treinamento, juntamente com sua precisão e classificação,
matriz de confusão de ada impulsionamento é a seguinte:
A pontuação de previsão para o conjunto de testes, juntamente com sua precisão e classificação, matriz
de confusão de aumento de ada é a seguinte:
AUMENTO DE GRADIENTE:
Matriz de desempenho no conjunto de dados do trem
Matriz de desempenho no conjunto de dados de teste:
ÁRVORE DE DECISÃO:

FLORESTA ALEATÓRIA:

ENSACAMENTO:
Matriz de desempenho no conjunto de dados do trem:
1.7 Métricas de Desempenho: Verifique o desempenho das Previsões em conjuntos de Trem e

Teste usando Precisão, Matriz de Confusão, Plot curva ROC e obtenha ROC_AUC
pontuação para cada modelo. Modelo Final: Comparar os modelos e escrever inferência qual
modelo é melhor/otimizado.
REGRESSÃO LOGÍSTICA:
Matriz de confusão:
AUC no teste e trem e curva ROC:
LDA:
Confusão e matriz de classificação:

CURVA AUC E ROC:
MODELO KNN:
Classificação e matriz de confusão:

AUC e CURVA ROC:
MODELO INGÊNUO DE BAYES:
Confusão e matriz de classificação:

AUC e Curva ROC:
Comparação de modelos :
Entre todos os modelos, o gradient boosting mostra alta precisão de 89% para conjunto de
treinamento e 84% para conjunto de teste. A precisão e o recall também são bons no aumento de
gradiente.
Inferência:
As variáveis mais importantes são "Haia" e "Blair". O povo deu 4 estrelas para Blair e 2 estrelas para
Haia.
Problema 2:
Neste projeto em particular, vamos trabalhar nos corpora inaugurais do nltk em Python.
Examinaremos os seguintes discursos dos Presidentes dos Estados Unidos da
América:
1. Presidente Franklin D. Roosevelt em 1941
2. Presidente John F. Kennedy em 1961
3. Presidente Richard Nixon em 1973
(Dica: use .words(), .raw(), .sent() para extrair contagens)

2.1 Localizar o número de caracteres, palavras e frases dos documentos mencionados.
Roosevelt:
Número de caracteres:
Número de palavras:
Número de frases:
Kennedy:
Número de frases:
Nixon:
Número de frases:
2.2 Remover todas as palavras de ordem dos três discursos. – 3 Marcas
2.3 Qual palavra ocorre mais vezes em seu discurso de posse de cada presidente? Mencione as três
principais palavras (depois de remover as palavras de parada)
Rosevelt:
A palavra nacional é a que mais ocorre.
Kennedy:
A maioria das palavras ocorridas são "world,sides.new"
Nixon:
As palavras mais ocorridas são "América, Paz, Mundo".

Vijaya ML

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Vijaya ML

Enviado por

Direitos autorais:

Formatos disponíveis

Problema 1:

AED (Análise Exploratória de Dados)

Descrição dos dados:

Nº total de valores duplicados = 8

O número de valores duplicados é muito menor, então podemos descartá-los e

2. Realizar análise univariada e bivariada. Fazer dados exploratórios

Análise Univariada e Verificação de Outlier

Não há correlação entre nenhuma variável.

Preparação dos dados:

O dimensionamento é necessário para o modelo KNN.

MODELO 1: REGRESSÃO LOGÍSTICA

Precisamos aplicar a regressão logística e ajustar o modelo.

Precisão do conjunto de treinamento:

Precisão do conjunto de testes:

Matriz de confusão e classificação para dados de treinamento:

Confusão e matriz de classificação para conjunto de testes:

KNN e ajuste dos dados de treinamento

Prevendo o treinamento e os testes:

Precisão para o conjunto de treinamento:

Precisão para o conjunto de testes:

Confusão e Matriz de Classificação para conjunto de treinamento:

MODELO INGÊNUO DE BAYES:

Depois de modelar e ajustar o conjunto de dados, os valores de previsão são os seguintes:

Precisão do conjunto de treinamento:

Precisão do conjunto de testes:

Matriz de classificação e confusão para dados de teste:

Matriz de desempenho no conjunto de dados de teste:

Matriz de desempenho no conjunto de dados do trem

Matriz de desempenho no conjunto de dados do trem

Matriz de desempenho no conjunto de dados de teste:

Matriz de desempenho no conjunto de dados do trem:

Matriz de desempenho no conjunto de dados de teste:

1.7 Métricas de Desempenho: Verifique o desempenho das Previsões em conjuntos de Trem e

Confusão e matriz de classificação:

Classificação e matriz de confusão:

MODELO INGÊNUO DE BAYES:

Confusão e matriz de classificação:

(Dica: use .words(), .raw(), .sent() para extrair contagens)

2.2 Remover todas as palavras de ordem dos três discursos. – 3 Marcas

A palavra nacional é a que mais ocorre.

As palavras mais ocorridas são "América, Paz, Mundo".

Você também pode gostar