Você está na página 1de 24

Universidade Federal da Paraíba – UFPB

Centro de Ciências Sociais Aplicadas - CCSA


Departamento de Finanças e Contabilidade - DFC

Introdução à Modelagem
Preditiva
Professor: Filipe Coelho de Lima Duarte
Disciplina: Estágio Supervisionado IV

1
Sumário
• Introdução ao processo de modelagem preditiva
• Previsão vs. Descrição
• Ajuste de modelos
• Validação cruzada
• Modelagem preditiva em atuária
• Principais modelos aplicados atualmente em seguradoras

2
Introdução ao processo de modelagem preditiva

• O que significa “Modelagem Preditiva”?


• De acordo com Geisser (1993): “é o processo pelo qual um modelo é criado ou
escolhido para tentar prever da melhor forma a probabilidade de um resultado”.
• Kuhn e Johnson (2013) dizem que a modelagem preditiva é “o processo de
desenvolvimento de uma ferramenta matemática ou um modelo que gera uma
previsão acurada.”
• Atualmente a modelagem preditiva está presente em vários setores:
1. Google
2. Companhias de cartões de crédito (acusar uma fraude)
3. Netflix (recomendação de filmes e seriados)
4. Sistema financeiro (hedge, gerenciamento de risco, etc.)
5. Seguradoras (previsão dos valores de sinistros, quantidade, classificar por riscos os
segurados, etc.)
6. Governos (previsão de riscos como suspeitas terroristas e etc.)

Baseado em Kuhn e Johnson (2013)


Introdução ao processo de modelagem preditiva

• A modelagem preditiva está sempre presente em nossas vidas. Por exemplo:


• Melhorando os tratamentos médicos;
• Aumentando os retornos dos investimentos;
• Melhorando os produtos ofertados, etc.
• Contudo, a modelagem preditiva pode gerar previsões sem precisão e nos levar
ao erro.
• Erro de diagnóstico médico;
• Direcionar um email legítmo para o spam;
• Transacionar ações no momento errado.
• A realidade é que esses modelos possuem limitações. Qual a principal?
• O comportamento humano!
• Mesmo assim, ela não deve nos impedir de sempre aperfeiçoar e melhorar os
processos de desenvolvimento dos modelos.

Baseado em Kuhn e Johnson (2013)


Introdução ao processo de modelagem preditiva

• Existem inúmeras razões dos modelos falharem.


1. Dados pré-processados de forma inadequada
2. Validação inadequada do modelo
3. Extrapolação injustificada (aplicação em problemas diferentes)
4. “Sobre-ajuste” (overfitting)
5. Falta de conhecimento do previsor (aplicador)

Baseado em Kuhn e Johnson (2013)


Previsão vs. Descrição
• A modelagem preditiva se distingue da modelagem estatística tradicional,
pelo fato de que a primeira objetiva Prever, enquanto que a segunda foca
na Descrição ou Interpretação dos fenômenos.

1.Prever o valor de um sinistro


Modelagem 2.Prever quantas bicicletas serão alugadas
Preditiva

1.Como os fatores impactam o valor do sinistro


Modelagem 2.Quais fatores determinam o interesse por
Estatística tradicional alugar uma bicicleta
Baseado em Kuhn e Johnson (2013)
Terminologia
• Amostra
• Dados de treinamento
• Dados de teste ou validação
• Variáveis independentes, características, preditoras ou explicativas
• Variável dependente ou de resposta
• Variável contínua
• Variável categórica (nominal ou discreta)
• Estimação de parâmetros, treinamento do modelo ou construção do
modelo
Ajuste de modelos
• Quando o overfitting (sobre-ajuste) acontece?
• modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente
observado, mas se mostra ineficaz para prever novos resultados.

• Como diferenciar um modelo ruim de uma situação em que ocorre


um sobre-ajuste?
• Dilema Viés vs Variância – análise do erro de generalização esperado.
Underfitting x Overfitting

9
Viés vs Variância
• Viés:
• Erro oriundo das hipóteses assumidas no modelo;
• Elevado bias pode fazer com que o modelo erre a relação relevante entre as
características e a variável de resposta (underfitting).

• Variância:
• Erro oriundo da sensibilidade às pequenas variações nos dados de
treinamento;
• Elevada variância pode levar o algoritmo a modelar o ruído aleatório nos
dados de treinamento, ao invés da variável resposta desejada (overfitting).
Viés vs Variância
Data splitting
• Técnica utilizada para avaliar o ajuste do modelo:
• Investigar a capacidade de generalização do modelo.

• Trata-se de particionar a amostra em dados de:


1. Treinamento
2. Validação (teste)

12
Validação cruzada
• Existem vários métodos de reamostragem para realizar a validação
cruzada (criar subconjuntos aleatórios):
• K-Fold – cria k conjuntos de mesmo tamanho aleatoriamente
• Monte Carlo – partições repetidas de treinamento/teste
• Bootstrapp – com reposição
Modelagem preditiva em atuária
• Mas qual a importância da modelagem preditiva para o atuário?
• Determinar o impacto financeiro corrente de eventos futuros
contingentes.

14
Modelagem Preditiva e Operações em
Companhias Seguradoras
• Apesar da modelagem preditiva atuarial ter surgido na tarifação, ela
tem sido utilizada atualmente no processo de calculo das provisões
técnicas e de forma geral no gerenciamento dos produtos.
• Especificamente, a modelagem preditiva atuarial é utilizada nas
seguintes áreas:
a. Subscrição inicial (selecionar o prêmio ideal para o nível de risco)
b. Subscrição de Renovação (manutenção de segurados rentáveis)
c. Gerenciamento de Sinistros (prever os sinistros e deter fraudes)
d. Provisões (estimar as futuras obrigações e quantificar a incerteza
das estimações)

15
Principais modelos aplicados atualmente
em seguradoras
1. Regressão Linear
2. Regressão com Variável Dependente Categórica
3. Regressão com Variável Dependente Contável
4. Modelos Lineares Generalizados
5. Modelos Longitudinais (dados em painel)
6. Regressão de Cauda Pesada
7. Aprendizagem Não Supervisionada
8. Métodos Bayesianos

16
Regressão Linear
• Utilizada para prever variáveis contínuas.
• Despesas médicas
• Valores de sinistros a pagar
• Índices relacionados a riscos (IMC)

17
Regressão com Variável Dependente
Categórica
• Resolver problemas de classificação.
• Quando se tem fatores ou categorias para realizar previsões.
• Alto e Baixo Risco
• Ordenar por nível de risco
• Escolha por tipo de cobertura (Completa, Parcial ou Simples)

18
Regressão com Variável Dependente
Contável
• Utilizada para modelar e prever a “quantidade de sinistros em uma
carteira”
• Utiliza-se distribuição de Poisson, Binominal Negativa, etc.

19
Modelos Lineares Generalizados
• Utilizados para modelar “frequência”, “severidade” e “taxas de
perda”.
• Ainda assim, podem ser empregados na estimação da probabilidade
de ocorrência de alguns eventos como a renovação da apólice pelo
cliente.
• Não requer variância constante entre as observações.

20
Modelos Longitudinais (dados em painel)
• Analisar o comportamento dos segurados ao longo do tempo.
• A experiência passada do segurado pode fornecer uma importante
informação que suplemente o processo de classificação de risco.

21
Regressão de Cauda Pesada
• Diferentemente da regressão tradicional que foca no centro da
distribuição (normal), a abordagem da cauda pesada enfatiza valores
extremos que, se não reconhecidos, podem enviesar a inferência da
tarifação.

22
Aprendizagem Não Supervisionada
• Redução de dimensionalidade, análise de conglomerados,
componentes principais, fatorial, e fuzzy clustering.
• Aplica-se, por exemplo:
• no processo de classificação de risco por região geográfica;
• criação de grupos de risco dos segurados;
• classificação de fraude, mineração de texto;
• redução da quantidade de variáveis para predição;
• análise de eficiência financeira da companhia, etc.

23
Métodos Bayesianos
• Utiliza a inferência bayesiana.
• Incorpora incerteza nos parâmetros e no modelo e incorpora o
julgamento do expert
• Aplicação na Teoria da Credibilidade.
• Aplica-se, também, em outros métodos elencados previamente.
• Ajuste dos parâmetros conforme novas informações são adicionadas.

24

Você também pode gostar