Escolar Documentos
Profissional Documentos
Cultura Documentos
Você é contratado por um dos principais canais de notícias CNBE que quer analisar as últimas eleições.
Esta pesquisa foi realizada com 1525 eleitores com 9 variáveis. Você tem que construir um modelo,
prever em qual partido o eleitor vai votar com base nas informações dadas, criar uma pesquisa de boca
de urna que ajude a prever a vitória geral e os assentos cobertos por um determinado partido.
1.1 Leia o conjunto de dados. Faça as estatísticas descritivas e faça a verificação de condição de valor
nulo. Escreva uma inferência sobre ele. (4 Marcas)
O primeiro passo para fazer a análise é importar todas as bibliotecas necessárias. Em seguida,
precisamos carregar o conjunto de dados fornecido. Para descobrir as entradas no conjunto de
dados, usamos head()
A partir do resultado acima, deduzimos que, existem um total de 10 colunas com 1525 entradas em
cada coluna. Os tipos de dados de todas as variáveis são inteiros, exceto "voto" e "gênero", que é
objeto.
Para prosseguir, podemos remover a coluna "sem nome", pois isso não será capaz de analisar.
Depois de remover o "unnamed", nosso conjunto de dados terá a aparência de
Verificando as duplicatas:
Análise bivariada:- é realizada para encontrar a relação entre cada variável no conjunto de dados
e a variável alvo de interesse (ou) usando 2 variáveis e encontrar a relação entre elas. Ex:-Lote de
caixa, Enredo de violino.
Análise multivariada:- é realizada para entender interações entre diferentes campos no conjunto
de dados (ou) encontrar interações entre variáveis mais de 2. Ex:- Gráfico de pares e gráfico de
dispersão 3D.
Análise Univariada:
Histograma:
1. Economic.cond.Nacional:
Análise Multivariada:
Mapa de calor:
Depois de prever, temos que encontrar a precisão dos dados de treinamento e teste.
Com base na precisão do treinamento e no resultado dos dados de teste, o modelo é bom
de usar. A precisão e os valores de recordação também são bons.
Modelo 2: LDA
Primeiramente, aplicou-se o modelo LDA e ajustou-se o conjunto de dados. Mais tarde,
previmos o treinamento de dados e os testes.
Precisão do trem:
Precisão do teste:
Confusão e Matriz de Classificação para Conjunto de Treinamento:
O modelo LDA também está tendo boa precisão e tendo bons valores de precisão.
1.5 Aplicar o Modelo KNN e o Modelo Bayes Ingênuo. Interprete os resultados. (4 marcas)
MODELO 3: KNN
Com base em nosso estudo, entendemos que o modelo KNN está tendo boa acurácia tanto para o
treinamento quanto para as séries de teste com bom escore de precisão.
1.6 Ajuste de Modelo, Ensacamento (Floresta Aleatória deve ser aplicada para Ensacamento) e
Boosting. (7 marcas)
Ada Impulsionamento
A pontuação de previsão para o conjunto de treinamento, juntamente com sua precisão e classificação,
matriz de confusão de ada impulsionamento é a seguinte:
A pontuação de previsão para o conjunto de testes, juntamente com sua precisão e classificação, matriz
de confusão de aumento de ada é a seguinte:
AUMENTO DE GRADIENTE:
Matriz de desempenho no conjunto de dados do trem
ÁRVORE DE DECISÃO:
FLORESTA ALEATÓRIA:
REGRESSÃO LOGÍSTICA:
Matriz de confusão:
AUC no teste e trem e curva ROC:
LDA:
MODELO KNN:
Comparação de modelos :
Entre todos os modelos, o gradient boosting mostra alta precisão de 89% para conjunto de
treinamento e 84% para conjunto de teste. A precisão e o recall também são bons no aumento de
gradiente.
Inferência:
As variáveis mais importantes são "Haia" e "Blair". O povo deu 4 estrelas para Blair e 2 estrelas para
Haia.
Problema 2:
Neste projeto em particular, vamos trabalhar nos corpora inaugurais do nltk em Python.
Examinaremos os seguintes discursos dos Presidentes dos Estados Unidos da
América:
1. Presidente Franklin D. Roosevelt em 1941
2. Presidente John F. Kennedy em 1961
3. Presidente Richard Nixon em 1973
Número de caracteres:
Número de palavras:
Número de frases:
Kennedy:
Número de caracteres:
Número de palavras:
Número de frases:
Nixon:
Número de caracteres:
Número de palavras:
Número de frases:
2.3 Qual palavra ocorre mais vezes em seu discurso de posse de cada presidente? Mencione as três
principais palavras (depois de remover as palavras de parada)
Rosevelt:
Kennedy:
A maioria das palavras ocorridas são "world,sides.new"
Nixon: