Videoaula 08 M3 Selecionando Metodos e Ajustando Modelos Revisto

Ciência de dados e as suas etapas
preparação
dos dados
validação análise
do modelo exploratória
ajuste do escolha do
modelo modelo
Selecionando métodos e ajustando o modelo
Selecionando métodos e modelos
A escolha do método a ser

utilizado em uma análise
depende da natureza do
problema que se deseja abordar.
Existem basicamente duas
classes de métodos/problemas:
 descritivos e
 preditivos.
Classes de métodos/problemas:
 Descritivos:
buscam encontrar padrões nos dados, como atributos que
caracterizem certas classes de objetos ou conjuntos de objetos
com propriedades semelhantes.
 Preditivos:
buscam definir modelos capazes de realizar predições a partir
dos dados.
O método a ser empregado em uma análise de
dados depende da natureza do problema, que
pode ser descritiva ou preditiva.
Métodos descritivos
 Operam diretamente nas informações contidas nos atributos
dos dados, não demandando um conjunto de controle que
indique, para um subconjunto dos dados, a ”resposta”
procurada.
 O fato de não demandarem um conjunto de “respostas’’
esperadas caracteriza os métodos descritivos como não
supervisionados.
Exemplos de métodos descritivos:
 técnicas de agrupamento (clustering);
 regras de associação e
 mineração de atributos frequentes.
Métodos preditivos
 A partir de informações contidas nos atributos dos dados, os
métodos preditivos buscam realizar predições de valores contínuos
ou categóricos. Demandam, contudo, um conjunto de ”respostas”
esperadas associadas a um subconjunto de objetos.
 Por demandarem um conjunto de “respostas’’ esperadas, os
métodos preditivos são chamados de supervisionados.
Exemplos de métodos preditivos:
 modelos lineares;
 máquinas de vetores de suporte (Support Vector Machines – SVM) e
 floresta randômica (random forest).
 Tanto no caso de problemas descritivos como no de preditivos,
existe uma gama bastante vasta de métodos que podem ser
empregados.
 A complexidade dos métodos e modelos também varia
bastante, e uma questão importante é “que método ou
modelo escolher’’?
 “Simplicidade primeiro” é um critério bastante útil no
momento de se escolher o método a ser adotado. Em outras
palavras: comece a escolha por modelos simples, que são mais
fáceis de serem interpretados.
”Simplicidade primeiro” é um critério bastante útil
no momento de se escolher o método a ser adotado.
Ajustando o modelo
 Os modelos preditivos (supervisionados) fazem uso do
subconjunto de dados cuja resposta de predição é conhecida a
fim de encontrar os parâmetros do modelo de predição.
 O subconjunto de dados cuja resposta de predição é conhecida
é denominado conjunto de treinamento.
 Uma vez que o modelo de predição tenha sido encontrado,
pode ser utilizado para prever a resposta de objetos que não
pertençam ao conjunto de treinamento.
Exemplo simples de predição
Suponha a seguinte planilha de desempenho escolar:
ê á
conjunto de treinamento
Que modelo de predição

escolher?
?
A partir das notas
escolares, gostaríamos de
predizer o desempenho no
ENEM.
Seguindo o princípio da ”simplicidade primeiro”, vamos adotar
um modelo linear.
ê
Nota ENEM = a * Nota Português + b * Nota Matemática
Utilizando ferramentas matemáticas

e os dados de treinamento, podemos
calcular os valores de a e b da
fórmula matemática acima.
valores calculados
a = 46.56, b = 57.84
um modelo linear.
ê a b
Nota ENEM = 46.56 * Nota Português + 57.84 * Nota Matemática
= 46.56 * 9.0 + 57.84 * 5.2

um modelo linear.
ê
a b
Nota ENEM = 46.56 * Nota Português + 57.84 * Nota Matemática
719.8 = 46.56 * 9.0 + 57.84 * 5.2

719.8
557.41 557.41 = 46.56 * 3.4 + 57.84 *6.9
667.89
667.89 = 46.56 * 5.4 + 57.84 *7.2
...
...
Ajustando o modelo
Classificação
Técnicas de predição também podem ser utilizadas para
predizer dados qualitativos (categóricos). Quando empregadas
no contexto de previsão de categorias (ou classes), tais técnicas
são denominadas técnicas de classificação.
Técnicas de predição de dados contínuos podem, em geral, ser
empregadas para predizer variáveis categóricas. Existem,
contudo, técnicas desenvolvidas exclusivamente para
funcionarem como técnicas de classificação. Logo, não servem
para a predição de variáveis contínuas.
Ajustando o modelo
 Modelos preditivos possuem parâmetros que precisam ser ajustados a
partir de informações contidas nos dados de treinamento.
 A qualidade do modelo gerado depende de dois fatores: adequação do
modelo para representar os dados e qualidade dos dados de
treinamento.
 Aumentar a complexidade (ou capacidade) do modelo para melhor se
ajustar aos dados de treinamento pode originar um problema
conhecido como overfitting, em que o modelo representa bem os
dados de treinamento, mas não necessariamente o conjunto de dados
reais.
 Dados de treinamento ruidosos ou de baixa representatividade
tendem a produzir modelos ruins.
Aumentar a complexidade (ou capacidade) de um
modelo pode gerar overfitting. Dados de
treinamento de baixa qualidade tendem a gerar
modelos pouco eficazes em termos de predição.
TODOS OS DIREITOS RESERVADOS.

Videoaula 08 M3 Selecionando Metodos e Ajustando Modelos Revisto

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Videoaula 08 M3 Selecionando Metodos e Ajustando Modelos Revisto

Enviado por

Direitos autorais:

Formatos disponíveis

Ciência de dados e as suas etapas

A escolha do método a ser

Que modelo de predição

Nota ENEM = a * Nota Português + b * Nota Matemática

Utilizando ferramentas matemáticas

= 46.56 * 9.0 + 57.84 * 5.2

719.8 = 46.56 * 9.0 + 57.84 * 5.2

Você também pode gostar