Escolar Documentos
Profissional Documentos
Cultura Documentos
O primeiro passo da nossa análise, temos que importar todas as bibliotecas necessárias. Depois de
carregar as bibliotecas, temos que carregar nosso data_set(Firm_level_data) para nossa análise.
2. O próximo passo é, precisamos saber os detalhes das colunas, juntamente com quantas
entradas e o tipo de dados de todas as variáveis.
Do exposto, podemos inferir que existem 10 colunas com 759 entradas, exceto sp500, todas as
variáveis são int e float, onde sp500 é um objeto.
3. Agora, precisamos saber se todas as variáveis têm valores nulos no conjunto de dados
fornecido.
A partir da saída acima, exceto "tobinq", todas as variáveis não têm valores nulos. Como o
número de valores nulos de "tobinq" é menor, podemos modificar aqueles com o valor médio.
Após esse processo, notamos que todos os valores nulos são modificados.
i) Venda:
ii) Capital:
Não há nenhum outlier presente em "O Capital". O valor varia entre 0 e 1000.
iii) Patentes:
Pelo exposto, entende-se que não há outlier presente e os valores estão variando de 0 a 12.
iv) Randd:
Há muitos outliers presentes nos dados, que precisam ser cuidados. O valor varia entre 1 e
3.
vii) Valor:
As vendas e o capital estão tendo relação mais comum. Assim, para prever as vendas, podemos tomar
"Capital" para dividir os dados.
Análise Multivariada:
1.2 Imputar valores nulos se presentes? Você acha que o dimensionamento é necessário
neste caso? (8
marcas)
Ans 1.3 Nós codificamos os dados (com valores de cadeia de caracteres) para o Model ling e
também
fizemos Data Split: Dividir os dados em teste e treinamento (70:30).
1.4 Inferência:
Antes de partir para o novo, precisamos verificar se o capital investido é bom, o que está
refletindo no gráfico de dispersão.
2.1 Ingestão de dados: Leia o conjunto de dados. Faça as estatísticas descritivas e faça a
verificação de condição de valor
nulo, escreva uma inferência sobre ele. Realizar análise univariada e bivariada.
Faça análise exploratória de dados. (8 marcas)
Temos que importar todos os arquivos de biblioteca necessários para processar a análise de
dados. Precisa verificar as entradas de cabeça.
Descrição:
Informação:
Pelo exposto, podemos inferir que, ao todo, são 15 colunas com 11217 entradas. A primeira coluna não
tem nome. Os tipos de dados são inteiro, float,object.
2.2 Nós codificamos os dados (com valores de cadeia de caracteres) para Modelagem.
Divisão de dados: Dividimos os dados em trem e teste (70:30).
A partir da saída acima, inferimos que temos precisão de 96% no conjunto de dados de teste.
2.4 Insights:
A precisão do treinamento e do teste é mais ou menos igual a 98%. A matriz de
confusão também mostra a semelhança. Podemos concluir que o método logístico
é melhor para predizer a análise.