Você está na página 1de 2

Aluno: Pedro Henrique Carvalho

Matricula: E01535
Turno: Noite
Turma: CCNA7

1) Por que temos que padronizar os dados (ou variáveis)?

R: Para a indentação e para que possamos fazer a classificação de cada uma de forma sucinta e
organizada, com o proposito de deixar nossos dados mais “Visíveis”, alem de deixarmos os
dados mais padronizados para podermos melhorar a analise e tomada de decisão

2) Explicar scaler.fit()

R: Esta função tem como objetivo ajustar os dados tratados para que possamos aplicá-los em
gráficos e no tratamento dos mesmos

3) Explicar a execução scaled_features e df_feat (o que ele está salvando em cada um)

R:

 scaled_features: Utilizado para normalizar uma certa sequência de dados ajustando-os


para um mesmo “limite”.
 df_feat: Cria um Data Frame para que possamos manipular os dados anteriormente
normalizados, sendo ele padronizado de uma determinada coluna X até a desejada
(Caso queira puxar todos os dados, utilizar columns = df.columns[:-1])

4) Explicar o algoritmo kneighbor

R: É basicamente um algoritmo que mede a similaridade de uma determinada informação com


seus vizinhos próximos, sendo baseado em vetores de x posições e sendo um vizinho de
distância n. Ele funciona da seguinte forma:

 Recebe os dados não classificados


 Mede a distancia dos mesmos
 Verifica a menor distancia e sua classe de acordo com a sua quantidade
 Toma como resultado a classe que mais apareceu
 Classifica o novo dado de acordo com a classe tomada
5) Explicar o resultado da matriz de confusão? (o que ela imprime, o que significam as linhas e
as colunas) (explicar os elementos da matriz de confusão) positivo, negativo, falso positivo,
falso negativo)

R: A matriz de confusão, as linhas são dadas como “Amostras” e as colunas como “Previsto”,
como um mediador, dado positivo e negativo para ambos.

Previsto
VERDADEIRO FALSO
VERDADEIRO Verdadeiro Positivo Falso Negativo
Amostra FALSO Verdadeiro Negativo Falso Positivo

Em suma podemos ser dados como “previsões”, se foi previsto que a amostra era positiva e
nosso acerto foi positivo, então é um verdadeiro positivo, mesma coisa no caso de previsões
Falsas que são negativas(Falso Positivo). Em casos em que tanto a amostra quanto o previsto
possuem divergência seriam resultados falsos, não tiveram sucesso nesta previsão.

6) Explicar resultado do calssification_report

É utilizado para que possamos ver os parâmetros de precisão de nosso algoritmo, com cada
parâmetro sendo um conceito:

 Precision: Precisão dos nossos dados, com base em quão próximos da veracidade estão
 Recal: Define a taixa de verdadeiros positivos (True positive) e falso negativo(true
Negative)
 F1 Score: Seria dado um peso de acordo com os acertos que temos em nosso
algoritmo, sendo o mesmo dado em porcentagens de 0 a 1, sendo o melhor caso mais
próximo de 1
 Suport: Seria o número de ocorrências desta determinada classe avaliada

7) Diferencie a respeito de regressão linear e regressão logistica


R: A regressão linear segue a correlação entre duas variaveis numericas e a regressão logistica
quando duas variaves podem ser tanto numericas quanto categoricas. Por exemplo você pode
usar os dados para fazer uma estimativa do preço de algumas casas em determinados bairros,
neste caso você utilizaria um algoritmo de regressão linear pois o que você esta mensurando é
uma “Estimativa”. Ja no caso de uma regressão logistica você a utilizaria para prever uma
variavel dependente e categorica, sem que você procure um padrão fixo como preço no
exemplo anterior. Um exemplo seria você querer estimar o se uma determinada casa será
vendida em um periodo de um mês, neste caso não buscamos mais estimativa de preço, sendo
assim nos temos apenas duas possibilidades para a venda: A casa foi vendida, a casa não foi
vendida. Desta forma, com a Regressão Logística podemos mensurar a probabilidade de
determinado evento acontecer ou não, e na regressão linear analisar a coorelação entre as
variaveis.

Você também pode gostar