Ciência de Dados - Capitulo 4

TREINANDO
MODELOS
Data Science
Prof. Genaro Lins
Roteiro
Regressão Gradiente
Linear Descendente
Regressão Curvas de
Polinomial Aprendizado
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

Roteiro
Linear Descendente
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

Vamos iniciar
com uma
regressão linear
Abordagens:
• Forma fechada
• Gradiente Descendente
PROF. GENARO LINS

𝑦! = 𝜃! + 𝜃" & 𝑥" + ⋯ + 𝜃# & 𝑥#
Modelo
• 𝑦! - valor previsto
• 𝑛 – número de características
• 𝑥$ - valor da 𝑖 − é𝑠𝑖𝑚𝑎 característica
Linear
• 𝜃% - parâmetro 𝑗 do modelo
Ou na notação vetorial
• 𝑦! = ℎ& 𝒙 = 𝜃 ' & 𝒙
PROF. GENARO LINS

MELHOR EM
QUAL MÉTRICA?
Achar o
melhor 𝜃
PROF. GENARO LINS
COMO
TREINAMOS O
MODELO ?
Vamos
Iniciar
com
RMSE
PROF. GENARO LINS
%
ACHANDO
1 '
min 𝑀𝑆𝐸 𝑋, 𝜃 = - 𝜃& . 𝑥 " −𝑦 "
! 𝑚"
"#$
∗
O 𝜃 QUE
MINIMIZA E a solução:
O RMSE
𝜃∗ = 𝑋4 $ 𝑋 56 $ 𝑋4 $ 𝑦
PROF. GENARO LINS

O QUE ACONTECE 𝜃∗ = 𝑋4 $ 𝑋 56 $ 𝑋4 $ 𝑦
SE EXISTE UM 𝑥!
MUITO
CORRELACIONADO
COM UM 𝑥" ?
A matriz não
seria invertível
PROF. GENARO LINS

SUPONHAMOS FOSSEMOS
DEUS E SOUBÉSSEMOS O
PROCESSO GERADOR DE
DADOS, QUAL SERIA O ERRO
DE PREDIÇÃO?
PROF. GENARO LINS
COMO SERIA SIMPLES
RESOLVER EM PYTHON
PROF. GENARO LINS

PREVISÃO
X
REAL
PROF. GENARO LINS

Complexidade
Computacional
𝛽 = 𝑋' & 𝑋 ("
& 𝑋' & 𝑦
• Características: 𝑂 𝑛).+ a 𝑂 𝑛, ou seja dobrando o

numero de caracteristicas, o tempo será entre 2).+ e
2, maior.
• Instância: 𝑂 𝑚 , ou seja o tempo crescre linearmente

ao número de instancias.
PROF. GENARO LINS

Roteiro
Linear Descendente
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

GRADIENTE
DESCENDENTE
PROF. GENARO LINS

O CUSTO
COMPUTACIONAL VARIA
DEPENDENDO DA TAXA
DE APREENDIZAGEM...
PROF. GENARO LINS
E COMO TODOS
OS MÉTODOS
NUMÉRICOS, ELE
É SENSÍVEL A
PLATORES E A
MÍNIMOS LOCAIS
PROF. GENARO LINS

2
lo
ítu
Escalonamento de Características
p
a
C
• Padronização : valores ∈ [0,1]
• Subtrai-se o mínimo e divide-se
pela diferença entre o máximo
e o mínimo.
• Normalização : 𝜇 = 0 𝑒 𝜎 ' = 1
• Subtrai-se a média e divide-se
pela variância.
18
EFEITO DO
ESCALONAMENTO DAS
CARACTERÍSTICAS
PARA O MÉTODO GD
PROF. GENARO LINS

GRADIENTE
DESCENDENTE
EM LOTE
Nesta técnica utiliza-se todo o conjunto

de informações para treinamento de X.
Por isso, chama-se em lote.
PROF. GENARO LINS
RESOLVENDO O
PROBLEMA
NUMERICAMENTE...
PROF. GENARO LINS

AGORA COM
TAXAS DE
Taxa de
Aprendizado
baixa
APRENDIZADO
DIFERENTES...
Taxa de
Aprendizado Alta
PROF. GENARO LINS

GRADIENTE
DESCENDENTE
ESTOCÁSTICO
Escolhe aleatoriamente uma

instancia de treinamento em
cada etapa.
PROF. GENARO LINS
GRADIENTE
DESCENDENTE
ESTOCÁSTICO
Escolhe aleatoriamente uma

instancia de treinamento em
cada etapa.
PROF. GENARO LINS
CONVERGÊNCIA
DO GDE
PROF. GENARO LINS

IMPLEMENTANDO A TÉCNICA
COM SKLEARN
PROF. GENARO LINS

GRADIENTE
DESCENDENTE
EM MINILOTES
BUSCA
COMBINAR AS
DUAS TÉCNICAS
PROF. GENARO LINS

Comparação entre Algoritmos
PROF. GENARO LINS

Roteiro
Linear Descendente
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

REGRESSÃO
POLINOMIAL
PROF. GENARO LINS

Modelo 𝑦! = 0.56 & 𝑥 ) + 0.93 & 𝑥 + 1.78
Real 𝑦! = 0.5 & 𝑥 ) + 1 & 𝑥 + 2
FAZENDO A REGRESSÃO
PROF. GENARO LINS

Roteiro
Linear Descendente
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

CURVAS DE
APRENDIZADO
Vamos comparar com um

polinômio de grau 300
PROF. GENARO LINS
O ERRO COMO
FUNÇÃO DO
TAMANHO DA BASE
DE TREINAMENTO:
REGRESSÃO LINEAR
SIMPLES
PROF. GENARO LINS

O ERRO COMO
FUNÇÃO DO
TAMANHO DA BASE
DE TREINAMENTO:
POLINÔMIO DE
GRAU 10
PROF. GENARO LINS

• Viés - 𝐸 𝑦E ≠ 𝐸 𝑦! . Ou seja, o que estamos
prevendo, 𝑦! ,é diferente, no sentido
estatístico, do que esperaríamos que
fosse o parâmetro - 𝐸 𝑦E .
• Erro na especificação do modelo, como por

exemplo hipóteses erradas.
Compensação • Variância – Var 𝑦! é elevado.
Viés / Variância • Por exemplo, quando utilizamos um polinômio

de grau elevado que sobre ajusta os dados de
treinamento.
• Erro Irredutível
• Por exemplo, erro das formas de medição.
PROF. GENARO LINS

COMPENSAÇÃO
VIÉS /
VARIÂNCIA
PROF. GENARO LINS

Roteiro
Linear Descendente
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

REGRESSÃO DE
RIDGE 𝑃" 𝑃"!
I
1
𝐽 𝜃 = 𝑀𝑆𝐸 𝜃 + 𝛼 $ $ . 𝜃GJ
2
GH6
PROF. GENARO LINS

REGRESSÃO DE
LASSO 𝑃" 𝑃"!
I
𝐽 𝜃 = 𝑀𝑆𝐸 𝜃 + 𝛼 $ . 𝜃G
GH6
PROF. GENARO LINS

Elastic Net
Ridge
I
1
𝐽 𝜃 = 𝑀𝑆𝐸 𝜃 + 𝛼 $ $ . 𝜃GJ
2
GH6
I I
1−𝑟
𝐽 𝜃 = 𝑀𝑆𝐸 𝜃 + 𝑟 $ 𝛼 $ . 𝜃G + 𝛼 $ $ . 𝜃GJ
2
GH6 GH6
I
𝐽 𝜃 = 𝑀𝑆𝐸 𝜃 + 𝛼 $ . 𝜃G
GH6
Lasso PROF. GENARO LINS
PARADA
ANTECIPADA
PROF. GENARO LINS

Roteiro
Linear Descendente
Modelos
Regressão
Lineares
Logística
Regularizados
PROF. GENARO LINS

MODELO LINEAR
𝑦! = 𝜃! + 𝜃" & 𝑥" + ⋯ + 𝜃# & 𝑥#
VIRTUDES
- SIMPLICIDADE
ESTIMANDO DEFEITO
PROPABILIDADES - SIMPLICIDADE (AS ESTIMATIVAS

DE PROBABILIDADES ∉ 0,1 )
PROF. GENARO LINS

EXEMPLO 1 –
SUPONHA QUE - 2 = 𝜃! + 𝜃" & 𝑋"" + ⋯ + 𝜃# & 𝑋-"
AO ESTIMAR A VARIAVEIS MAIS NEGATIVAS:

PROBABILIDADE
DE DEFAULT • 𝑋"" - DUMMY RENDA ALTA RENDA
ENCONTRAMOS
...
UM VALOR DE
PROBABILIDADE • 𝑋-" - DUMMY FUNCIONRIO PUBLICO
NEGATIVO
PROF. GENARO LINS

EXEMPLO 2 –
SUPONHA QUE 5 = 𝜃! + 𝜃" & 𝑋") + ⋯ + 𝜃# & 𝑋-)
AO ESTIMAR A VARIAVEIS MAIS POSITIVAS:

PROBABILIDADE
DE DEFAULT • 𝑋+) - DUMMY RENDA BAIXA RENDA
ENCONTRAMOS
...
UM VALOR DE
PROBABILIDADE )
• 𝑋". - DUMMY NEGATIVADO
MAIOR QUE 1
PROF. GENARO LINS

Regressão Logística 𝑝̂ = ℎ& 𝑋 = 𝜎 𝜃 ' & 𝑥
1
𝜎 𝑡 =
1 + 𝑒 (/
PROF. GENARO LINS

OBSERVE QUE A
PREVISÃO DA
REGRESSÃO
LOGÍSTICA SAI
IMEDIATAMENTE
𝜎 𝑡 < 0.5 → 𝑡 < 0
&
𝜎 𝑡 > 0.5 → 𝑡 > 0

PROF. GENARO LINS
• Para uma instância
Função
custo • A função custo para tido o conjunto de
treinamento é a soma nas instâncias:
PROF. GENARO LINS

APESAR DE NÃO TER UM MÍNIMO COM
FORMA FECHADA, A FUNÇÃO CUSTO É
CONVEXA
PROF. GENARO LINS

:
VAMOS MODELAR A
PROBABILIDADE DE COM BASE
NO COMPRIMENTO DA PÉTALA
A CLASSIFICAÇÃO DO TIPO DE
FLOR:
IRIS- VIRGÍNICA
OU
NÃO IRIS- VIRGÍNICA
PROF. GENARO LINS

PYTHON
PROF. GENARO LINS

Análise do Resultado
PROF. GENARO LINS

Para o caso multivariado, utilizando como
variável explicativa tanto a largura quanto
o comprimento da pétala
PROF. GENARO LINS

0 '
• 𝑠0 𝑥 = 𝜃 &𝑥
1 !" #
• 𝑝̂0 = 𝜎 𝑠0 𝑥 = !$ #
∑'
$%& 1
• K é o numero de classes
• 𝑠0 𝑥 é o vetor de pontuação para
a instância x na previsão do item
k.
• 𝜎 𝑠0 𝑥 é a probabilidade
estimada de que a instancia x
pertença a classe k
PROF. GENARO LINS

Função Custo
de Entropia
Cruzada
$
𝑦0 é igual a 1 se a classe-alvo para
a instancia i-ésima for k caso
contrário, será igual a 0.
PROF. GENARO LINS

NO
PYTHON
PROF. GENARO LINS

Ciência de Dados - Capitulo 4

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ciência de Dados - Capitulo 4

Enviado por

Direitos autorais:

Formatos disponíveis

TREINANDO

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

• 𝑦! = ℎ& 𝒙 = 𝜃 ' & 𝒙

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

• Características: 𝑂 𝑛).+ a 𝑂 𝑛, ou seja dobrando o

• Instância: 𝑂 𝑚 , ou seja o tempo crescre linearmente

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

Nesta técnica utiliza-se todo o conjunto

PROF. GENARO LINS

PROF. GENARO LINS

Escolhe aleatoriamente uma

Escolhe aleatoriamente uma

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

Real 𝑦! = 0.5 & 𝑥 ) + 1 & 𝑥 + 2

PROF. GENARO LINS

PROF. GENARO LINS

Vamos comparar com um

PROF. GENARO LINS

PROF. GENARO LINS

• Erro na especificação do modelo, como por

Compensação • Variância – Var 𝑦! é elevado.

Viés / Variância • Por exemplo, quando utilizamos um polinômio

• Por exemplo, erro das formas de medição.

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

𝑦! = 𝜃! + 𝜃" & 𝑥" + ⋯ + 𝜃# & 𝑥#

PROPABILIDADES - SIMPLICIDADE (AS ESTIMATIVAS

PROF. GENARO LINS

AO ESTIMAR A VARIAVEIS MAIS NEGATIVAS:

PROF. GENARO LINS

AO ESTIMAR A VARIAVEIS MAIS POSITIVAS:

PROF. GENARO LINS

PROF. GENARO LINS

𝜎 𝑡 > 0.5 → 𝑡 > 0

PROF. GENARO LINS

PROF. GENARO LINS

NÃO IRIS- VIRGÍNICA

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS

PROF. GENARO LINS