Você está na página 1de 26

Problema 1:

Você é contratado por um dos principais canais de notícias CNBE que quer analisar as últimas eleições.
Esta pesquisa foi realizada com 1525 eleitores com 9 variáveis. Você tem que construir um modelo,
prever em qual partido o eleitor vai votar com base nas informações dadas, criar uma pesquisa de boca
de urna que ajude a prever a vitória geral e os assentos cobertos por um determinado partido.

1.1 Leia o conjunto de dados. Faça as estatísticas descritivas e faça a verificação de condição de valor
nulo. Escreva uma inferência sobre ele. (4 Marcas)

AED (Análise Exploratória de Dados)

O primeiro passo para fazer a análise é importar todas as bibliotecas necessárias. Em seguida,
precisamos carregar o conjunto de dados fornecido. Para descobrir as entradas no conjunto de
dados, usamos head()

A partir do resultado acima, deduzimos que, existem um total de 10 colunas com 1525 entradas em
cada coluna. Os tipos de dados de todas as variáveis são inteiros, exceto "voto" e "gênero", que é
objeto.
Para prosseguir, podemos remover a coluna "sem nome", pois isso não será capaz de analisar.
Depois de remover o "unnamed", nosso conjunto de dados terá a aparência de

Descrição dos dados:

Verificando as duplicatas:

Nº total de valores duplicados = 8

O número de valores duplicados é muito menor, então podemos descartá-los e


prosseguir.

2. Realizar análise univariada e bivariada. Fazer dados exploratórios


análise. Verifique se há outliers.

Análise Univariada e Verificação de Outlier


A Análise Exploratória de Dados é realizada principalmente usando os seguintes métodos:
Análise univariada:- fornece estatísticas de resumo para cada campo no conjunto de dados brutos
(ou) resumo apenas em uma variável. Ex:- CDF, PDF, Gráfico da caixa.

Análise bivariada:- é realizada para encontrar a relação entre cada variável no conjunto de dados
e a variável alvo de interesse (ou) usando 2 variáveis e encontrar a relação entre elas. Ex:-Lote de
caixa, Enredo de violino.
Análise multivariada:- é realizada para entender interações entre diferentes campos no conjunto
de dados (ou) encontrar interações entre variáveis mais de 2. Ex:- Gráfico de pares e gráfico de
dispersão 3D.

Análise Univariada:
Histograma:

1. Economic.cond.Nacional:
Análise Multivariada:
Mapa de calor:

Não há correlação entre nenhuma variável.

Preparação dos dados:


1. Codifique os dados (com valores de cadeia de caracteres) para Modelagem. O Scaling é
necessário aqui ou não? Divisão de dados: Divida os dados em treinamento e teste (70:30).
Codificando o conjunto de dados .

O dimensionamento é necessário para o modelo KNN.


1.4 Aplicar Regressão Logística e LDA (análise discriminante linear). (4 marcas)

MODELO 1: REGRESSÃO LOGÍSTICA

Precisamos aplicar a regressão logística e ajustar o modelo.


Prevendo o treinamento e os dados de teste.

Depois de prever, temos que encontrar a precisão dos dados de treinamento e teste.

Precisão do conjunto de treinamento:

Precisão do conjunto de testes:

Matriz de confusão e classificação para dados de treinamento:


Confusão e matriz de classificação para dados de teste:

Com base na precisão do treinamento e no resultado dos dados de teste, o modelo é bom
de usar. A precisão e os valores de recordação também são bons.

Modelo 2: LDA
Primeiramente, aplicou-se o modelo LDA e ajustou-se o conjunto de dados. Mais tarde,
previmos o treinamento de dados e os testes.

Precisão do trem:

Precisão do teste:
Confusão e Matriz de Classificação para Conjunto de Treinamento:

Confusão e matriz de classificação para conjunto de testes:

O modelo LDA também está tendo boa precisão e tendo bons valores de precisão.
1.5 Aplicar o Modelo KNN e o Modelo Bayes Ingênuo. Interprete os resultados. (4 marcas)

MODELO 3: KNN

KNN e ajuste dos dados de treinamento

Prevendo o treinamento e os testes:

Precisão para o conjunto de treinamento:

Precisão para o conjunto de testes:

Confusão e Matriz de Classificação para conjunto de treinamento:


Matriz de Confusão e Classificação para conjunto de testes:

Com base em nosso estudo, entendemos que o modelo KNN está tendo boa acurácia tanto para o
treinamento quanto para as séries de teste com bom escore de precisão.

MODELO INGÊNUO DE BAYES:

Depois de modelar e ajustar o conjunto de dados, os valores de previsão são os seguintes:

Precisão do conjunto de treinamento:

Precisão do conjunto de testes:


Matriz de classificação e confusão para dados de treinamento:

Matriz de classificação e confusão para dados de teste:

1.6 Ajuste de Modelo, Ensacamento (Floresta Aleatória deve ser aplicada para Ensacamento) e
Boosting. (7 marcas)
Ada Impulsionamento

A pontuação de previsão para o conjunto de treinamento, juntamente com sua precisão e classificação,
matriz de confusão de ada impulsionamento é a seguinte:

A pontuação de previsão para o conjunto de testes, juntamente com sua precisão e classificação, matriz
de confusão de aumento de ada é a seguinte:

AUMENTO DE GRADIENTE:
Matriz de desempenho no conjunto de dados do trem

Matriz de desempenho no conjunto de dados de teste:

ÁRVORE DE DECISÃO:

Matriz de desempenho no conjunto de dados do trem


Matriz de desempenho no conjunto de dados de teste:

FLORESTA ALEATÓRIA:

Matriz de desempenho no conjunto de dados do trem

Matriz de desempenho no conjunto de dados de teste:


ENSACAMENTO:

Matriz de desempenho no conjunto de dados do trem:

Matriz de desempenho no conjunto de dados de teste:

1.7 Métricas de Desempenho: Verifique o desempenho das Previsões em conjuntos de Trem e


Teste usando Precisão, Matriz de Confusão, Plot curva ROC e obtenha ROC_AUC
pontuação para cada modelo. Modelo Final: Comparar os modelos e escrever inferência qual
modelo é melhor/otimizado.

REGRESSÃO LOGÍSTICA:

Matriz de confusão:
AUC no teste e trem e curva ROC:

LDA:

Confusão e matriz de classificação:


CURVA AUC E ROC:

MODELO KNN:

Classificação e matriz de confusão:


AUC e CURVA ROC:

MODELO INGÊNUO DE BAYES:

Confusão e matriz de classificação:


AUC e Curva ROC:

Comparação de modelos :

Entre todos os modelos, o gradient boosting mostra alta precisão de 89% para conjunto de
treinamento e 84% para conjunto de teste. A precisão e o recall também são bons no aumento de
gradiente.

Inferência:

As variáveis mais importantes são "Haia" e "Blair". O povo deu 4 estrelas para Blair e 2 estrelas para
Haia.

Problema 2:
Neste projeto em particular, vamos trabalhar nos corpora inaugurais do nltk em Python.
Examinaremos os seguintes discursos dos Presidentes dos Estados Unidos da
América:
1. Presidente Franklin D. Roosevelt em 1941
2. Presidente John F. Kennedy em 1961
3. Presidente Richard Nixon em 1973

(Dica: use .words(), .raw(), .sent() para extrair contagens)


2.1 Localizar o número de caracteres, palavras e frases dos documentos mencionados.
Roosevelt:

Número de caracteres:

Número de palavras:

Número de frases:

Kennedy:

Número de caracteres:

Número de palavras:

Número de frases:

Nixon:

Número de caracteres:
Número de palavras:

Número de frases:

2.2 Remover todas as palavras de ordem dos três discursos. – 3 Marcas

2.3 Qual palavra ocorre mais vezes em seu discurso de posse de cada presidente? Mencione as três
principais palavras (depois de remover as palavras de parada)

Rosevelt:

A palavra nacional é a que mais ocorre.

Kennedy:
A maioria das palavras ocorridas são "world,sides.new"

Nixon:

As palavras mais ocorridas são "América, Paz, Mundo".

Você também pode gostar