Escolar Documentos
Profissional Documentos
Cultura Documentos
preparação
dos dados
validação análise
do modelo exploratória
ajuste do escolha do
modelo modelo
Selecionando métodos e ajustando o modelo
Selecionando métodos e modelos
Classes de métodos/problemas:
Descritivos:
buscam encontrar padrões nos dados, como atributos que
caracterizem certas classes de objetos ou conjuntos de objetos
com propriedades semelhantes.
Preditivos:
buscam definir modelos capazes de realizar predições a partir
dos dados.
O método a ser empregado em uma análise de
dados depende da natureza do problema, que
pode ser descritiva ou preditiva.
Métodos descritivos
Operam diretamente nas informações contidas nos atributos
dos dados, não demandando um conjunto de controle que
indique, para um subconjunto dos dados, a ”resposta”
procurada.
O fato de não demandarem um conjunto de “respostas’’
esperadas caracteriza os métodos descritivos como não
supervisionados.
Exemplos de métodos descritivos:
técnicas de agrupamento (clustering);
regras de associação e
mineração de atributos frequentes.
Métodos preditivos
A partir de informações contidas nos atributos dos dados, os
métodos preditivos buscam realizar predições de valores contínuos
ou categóricos. Demandam, contudo, um conjunto de ”respostas”
esperadas associadas a um subconjunto de objetos.
Por demandarem um conjunto de “respostas’’ esperadas, os
métodos preditivos são chamados de supervisionados.
Exemplos de métodos preditivos:
modelos lineares;
máquinas de vetores de suporte (Support Vector Machines – SVM) e
floresta randômica (random forest).
Selecionando métodos e modelos
Tanto no caso de problemas descritivos como no de preditivos,
existe uma gama bastante vasta de métodos que podem ser
empregados.
A complexidade dos métodos e modelos também varia
bastante, e uma questão importante é “que método ou
modelo escolher’’?
“Simplicidade primeiro” é um critério bastante útil no
momento de se escolher o método a ser adotado. Em outras
palavras: comece a escolha por modelos simples, que são mais
fáceis de serem interpretados.
”Simplicidade primeiro” é um critério bastante útil
no momento de se escolher o método a ser adotado.
Ajustando o modelo
Os modelos preditivos (supervisionados) fazem uso do
subconjunto de dados cuja resposta de predição é conhecida a
fim de encontrar os parâmetros do modelo de predição.
O subconjunto de dados cuja resposta de predição é conhecida
é denominado conjunto de treinamento.
Uma vez que o modelo de predição tenha sido encontrado,
pode ser utilizado para prever a resposta de objetos que não
pertençam ao conjunto de treinamento.
Exemplo simples de predição
Suponha a seguinte planilha de desempenho escolar:
ê á
conjunto de treinamento
valores calculados
a = 46.56, b = 57.84
Exemplo simples de predição
Seguindo o princípio da ”simplicidade primeiro”, vamos adotar
um modelo linear.
ê a b
Nota ENEM = 46.56 * Nota Português + 57.84 * Nota Matemática