Você está na página 1de 15

Problema 1: Regressão Linear

Você faz parte de uma empresa de investimentos e seu trabalho é fazer


pesquisas sobre essas 759 empresas. Você recebe o conjunto de dados que
contém as vendas e outros atributos dessas 759 empresas. Preveja as vendas
dessas empresas com base nos detalhes fornecidos no conjunto de dados para
ajudar sua empresa a investir de forma consciente. Além disso, forneça-lhes 5
atributos que são mais importantes.

O primeiro passo da nossa análise, temos que importar todas as bibliotecas necessárias. Depois de
carregar as bibliotecas, temos que carregar nosso data_set(Firm_level_data) para nossa análise.

1. Primeiro, descobrimos quais são todas as entradas no conjunto de dados, verificando as 5


principais linhas.

Pelo exposto, agora temos a ideia de como os dados foram inseridos.

2. O próximo passo é, precisamos saber os detalhes das colunas, juntamente com quantas
entradas e o tipo de dados de todas as variáveis.

Do exposto, podemos inferir que existem 10 colunas com 759 entradas, exceto sp500, todas as
variáveis são int e float, onde sp500 é um objeto.
3. Agora, precisamos saber se todas as variáveis têm valores nulos no conjunto de dados
fornecido.

A partir da saída acima, exceto "tobinq", todas as variáveis não têm valores nulos. Como o
número de valores nulos de "tobinq" é menor, podemos modificar aqueles com o valor médio.
Após esse processo, notamos que todos os valores nulos são modificados.

4. Então, agora precisamos saber se algum valor está duplicado ou não.

Não há duplicação presente no conjunto de dados fornecido.

5. Agora, precisamos descrever o conjunto de dados.


6. Análise univariada:

i) Venda:

Não há nenhum outlier presente em "Vendas". O valor varia entre 0 e 2000.

ii) Capital:

Não há nenhum outlier presente em "O Capital". O valor varia entre 0 e 1000.
iii) Patentes:

Pelo exposto, entende-se que não há outlier presente e os valores estão variando de 0 a 12.

iv) Randd:

O "Randd" não tem outliers presentes e os dados variam entre 0 e 150.


v) Emprego:

A variável "emprego" não apresenta outliers e os dados variam de 0 t 10.


vi) Tobinq:

Há muitos outliers presentes nos dados, que precisam ser cuidados. O valor varia entre 1 e
3.
vii) Valor:

Não há outliers presentes no conjunto de dados. O valor varia entre 0 e 2000.


viii) Instituições:

Não há outliers presentes no conjunto de dados. O valor varia de 20 a 60.


Verificando a correlação entre as variáveis:

As vendas e o capital estão tendo relação mais comum. Assim, para prever as vendas, podemos tomar
"Capital" para dividir os dados.
Análise Multivariada:
1.2 Imputar valores nulos se presentes? Você acha que o dimensionamento é necessário
neste caso? (8
marcas)

Todos os valores nulos presentes na base de dados foram imputados. Escalonamento


necessário para converter as variáveis com medidas diferentes na mesma medida.

O dimensionamento também é necessário em nosso conjunto de dados. Nós tratamos os


outliers presentes no conjunto de dados e então nós fizemos o StandardScaler normaliza.

Ans 1.3 Nós codificamos os dados (com valores de cadeia de caracteres) para o Model ling e
também
fizemos Data Split: Dividir os dados em teste e treinamento (70:30).

Temos que dividir o conjunto de dados dado em treinamento e teste, separando X e Y, X


trem, X_test, Y_train, Y_test.

E aí a gente se encaixa no modelo.

As métricas de desempenho são as seguintes:

R Square em dados de treinamento é 83,15% RMSE em dados de treinamento é 6% RMSE


em dados de teste é 5,19%

1.4 Inferência:
Antes de partir para o novo, precisamos verificar se o capital investido é bom, o que está
refletindo no gráfico de dispersão.

As variáveis importantes são o valor, o emprego, as vendas e as patentes.

O atributo muito importante é o Emprego e as Patentes.

Problema 2: Regressão Logística e LDA


Você é contratado pelo Governo para fazer análises sobre acidentes de carro. São
fornecidos detalhes
de acidentes de carro, entre os quais algumas pessoas sobreviveram e outras não. Você tem
que ajudar
o governo a prever se uma pessoa vai sobreviver ou não com base nas informações
fornecidas no conjunto de dados, de modo a fornecer insights que ajudarão o governo a
fazer leis mais fortes para os fabricantes de automóveis para garantir medidas de
segurança. Além disso, descubra
os fatores importantes com base nos quais você fez suas previsões.

2.1 Ingestão de dados: Leia o conjunto de dados. Faça as estatísticas descritivas e faça a
verificação de condição de valor
nulo, escreva uma inferência sobre ele. Realizar análise univariada e bivariada.
Faça análise exploratória de dados. (8 marcas)

Temos que importar todos os arquivos de biblioteca necessários para processar a análise de
dados. Precisa verificar as entradas de cabeça.

Descrição:
Informação:

Pelo exposto, podemos inferir que, ao todo, são 15 colunas com 11217 entradas. A primeira coluna não
tem nome. Os tipos de dados são inteiro, float,object.

Para verificar os valores nulos no conjunto de dados:


Exceto "injSeverity ", todas as variáveis não estão tendo nenhum valor nulo.
Análise Multivariada:

O exposto acima mostra a colinearidade entre as variáveis.

2.2 Nós codificamos os dados (com valores de cadeia de caracteres) para Modelagem.
Divisão de dados: Dividimos os dados em trem e teste (70:30).

Ao tomar "Survived" como a variável de destino, dividimos os dados em treinar e testar.

Respostas 2.3 As métricas de desempenho do modelo de Regressão Logística e Análise


Discriminante
Linear são as seguintes:

Dividimos os dados em treinamento e testes.

A partir da saída acima, inferimos que temos precisão de 96% no conjunto de dados de teste.

Com base na matriz de confusão, a precisão é de 98%.

2.4 Insights:
 A precisão do treinamento e do teste é mais ou menos igual a 98%. A matriz de
confusão também mostra a semelhança. Podemos concluir que o método logístico
é melhor para predizer a análise.

Você também pode gostar