Você está na página 1de 18

Ciência de dados e as suas etapas

preparação
dos dados

validação análise
do modelo exploratória

ajuste do escolha do
modelo modelo
Selecionando métodos e ajustando o modelo
Selecionando métodos e modelos

A escolha do método a ser


utilizado em uma análise
depende da natureza do
problema que se deseja abordar.
Existem basicamente duas
classes de métodos/problemas:
 descritivos e
 preditivos.
Selecionando métodos e modelos

Classes de métodos/problemas:

 Descritivos:
buscam encontrar padrões nos dados, como atributos que
caracterizem certas classes de objetos ou conjuntos de objetos
com propriedades semelhantes.

 Preditivos:
buscam definir modelos capazes de realizar predições a partir
dos dados.
O método a ser empregado em uma análise de
dados depende da natureza do problema, que
pode ser descritiva ou preditiva.
Métodos descritivos
 Operam diretamente nas informações contidas nos atributos
dos dados, não demandando um conjunto de controle que
indique, para um subconjunto dos dados, a ”resposta”
procurada.
 O fato de não demandarem um conjunto de “respostas’’
esperadas caracteriza os métodos descritivos como não
supervisionados.
Exemplos de métodos descritivos:
 técnicas de agrupamento (clustering);
 regras de associação e
 mineração de atributos frequentes.
Métodos preditivos
 A partir de informações contidas nos atributos dos dados, os
métodos preditivos buscam realizar predições de valores contínuos
ou categóricos. Demandam, contudo, um conjunto de ”respostas”
esperadas associadas a um subconjunto de objetos.
 Por demandarem um conjunto de “respostas’’ esperadas, os
métodos preditivos são chamados de supervisionados.
Exemplos de métodos preditivos:
 modelos lineares;
 máquinas de vetores de suporte (Support Vector Machines – SVM) e
 floresta randômica (random forest).
Selecionando métodos e modelos
 Tanto no caso de problemas descritivos como no de preditivos,
existe uma gama bastante vasta de métodos que podem ser
empregados.
 A complexidade dos métodos e modelos também varia
bastante, e uma questão importante é “que método ou
modelo escolher’’?
 “Simplicidade primeiro” é um critério bastante útil no
momento de se escolher o método a ser adotado. Em outras
palavras: comece a escolha por modelos simples, que são mais
fáceis de serem interpretados.
”Simplicidade primeiro” é um critério bastante útil
no momento de se escolher o método a ser adotado.
Ajustando o modelo
 Os modelos preditivos (supervisionados) fazem uso do
subconjunto de dados cuja resposta de predição é conhecida a
fim de encontrar os parâmetros do modelo de predição.
 O subconjunto de dados cuja resposta de predição é conhecida
é denominado conjunto de treinamento.
 Uma vez que o modelo de predição tenha sido encontrado,
pode ser utilizado para prever a resposta de objetos que não
pertençam ao conjunto de treinamento.
Exemplo simples de predição
Suponha a seguinte planilha de desempenho escolar:
ê á

conjunto de treinamento

Que modelo de predição


escolher?
?
A partir das notas
escolares, gostaríamos de
predizer o desempenho no
ENEM.
Exemplo simples de predição
Seguindo o princípio da ”simplicidade primeiro”, vamos adotar
um modelo linear.
ê

Nota ENEM = a * Nota Português + b * Nota Matemática

Utilizando ferramentas matemáticas


e os dados de treinamento, podemos
calcular os valores de a e b da
fórmula matemática acima.

valores calculados
a = 46.56, b = 57.84
Exemplo simples de predição
Seguindo o princípio da ”simplicidade primeiro”, vamos adotar
um modelo linear.
ê a b
Nota ENEM = 46.56 * Nota Português + 57.84 * Nota Matemática

= 46.56 * 9.0 + 57.84 * 5.2


Exemplo simples de predição
Seguindo o princípio da ”simplicidade primeiro”, vamos adotar
um modelo linear.
ê
a b
Nota ENEM = 46.56 * Nota Português + 57.84 * Nota Matemática

719.8 = 46.56 * 9.0 + 57.84 * 5.2


719.8
557.41 557.41 = 46.56 * 3.4 + 57.84 *6.9
667.89
667.89 = 46.56 * 5.4 + 57.84 *7.2
...
...
Ajustando o modelo
Classificação
Técnicas de predição também podem ser utilizadas para
predizer dados qualitativos (categóricos). Quando empregadas
no contexto de previsão de categorias (ou classes), tais técnicas
são denominadas técnicas de classificação.
Técnicas de predição de dados contínuos podem, em geral, ser
empregadas para predizer variáveis categóricas. Existem,
contudo, técnicas desenvolvidas exclusivamente para
funcionarem como técnicas de classificação. Logo, não servem
para a predição de variáveis contínuas.
Ajustando o modelo
 Modelos preditivos possuem parâmetros que precisam ser ajustados a
partir de informações contidas nos dados de treinamento.
 A qualidade do modelo gerado depende de dois fatores: adequação do
modelo para representar os dados e qualidade dos dados de
treinamento.
 Aumentar a complexidade (ou capacidade) do modelo para melhor se
ajustar aos dados de treinamento pode originar um problema
conhecido como overfitting, em que o modelo representa bem os
dados de treinamento, mas não necessariamente o conjunto de dados
reais.
 Dados de treinamento ruidosos ou de baixa representatividade
tendem a produzir modelos ruins.
Aumentar a complexidade (ou capacidade) de um
modelo pode gerar overfitting. Dados de
treinamento de baixa qualidade tendem a gerar
modelos pouco eficazes em termos de predição.
TODOS OS DIREITOS RESERVADOS.

Você também pode gostar