Você está na página 1de 49

INTRODUÇÃO

Machine Learning
RECONHECIMENTO DE
DÍGITOS MANUSCRITOS
OpenAI GPT-3
200

150
#Parameters (B)

100

50

0
BERT RoBERTa GPT-2 T5 Turing NLG GPT-3

Model

Fonte: TowardsDataScience, 2020


GPT-2 GERANDO TEXTOS
SAÍDA
(ESCRITA PELO MODELO, 10 TENTATIVAS)

ENTRADA O cientista deu à população o nome de seu chifre característico,


(ESCRITA POR HUMANO) Unicórnio de Ovídio. Esses unicórnios de quatro chifres brancos
prateados eram anteriormente desconhecidos para a ciência.
Em uma descoberta chocante, o cientista
descobriu uma manada de unicórnios vivendo Agora, depois de quase dois séculos, o mistério do que desencadeou
em um vale remoto e até então inexplorado, na esse estranho fenômeno foi finalmente resolvido.
Cordilheira dos Andes. Ainda mais
surpreendente para os pesquisadores foi o fato O Dr. Jorge Pérez, biólogo evolucionista da Universidade de La Paz, e
de os unicórnios falarem um inglês perfeito. vários companheiros exploravam a Cordilheira dos Andes quando
encontraram um pequeno vale, sem outros animais ou humanos.
Pérez notou que o vale tinha o que parecia ser uma fonte natural,
rodeado por dois picos de rocha e neve prateada...

Fonte: OpenAI, 2020


GPT-3 GERANDO O SITE DO GOOGLE

Fonte: Business Insider, 2020


O QUE É MACHINE
LEARNIG?
APRENDIZADO DE MÁQUINA
IA:
Técnicas que permitem o
computador simularcomportamentos
Inteligência Artificial
humanos e cognitivos

ML:
Uso de modelos estatísticos que
aprendem e melhoram por meio da Machine Learning
exposição a dados

Deep Learning:
Subconjunto de técnicas de ML, onde
redes neurais profundas aprendem Deep Learning
através de dados
APRENDIZADO DE MÁQUINA

Campo de estudo que possibilita aos


computadores a habilidade de
aprender sem explicitamente
programá-los.
- Arthur Samuel, 1959
APRENDIZADO DE MÁQUINA

ML permite que as máquinas aprendam com os


dados e se comportem de maneira probabilística
para resolver problemas otimizando para um
determinado objetivo
- Arthur Samuel, 1959
PROGRAMAÇÃO TRADICIONAL

Entrada
(inputs)
Programa
PROGRAMAÇÃO TRADICIONAL

Entrada
Programa Resultado
(inputs)
PROGRAMAÇÃO TRADICIONAL

Entrada
Programa Resultado
(inputs)

Desempenho
Atualização
PROGRAMAÇÃO TRADICIONAL

Entrada
Programa Resultado
(inputs)

processo manual

Desempenho
Atualização
MACHINE LEARNING

Dados

Entrada
MACHINE LEARNING

Dados

Modelo
Entrada Resultado
Parâmetros ou Regras Implícitas
MACHINE LEARNING

Dados

Rótulo (label)

Modelo
Entrada Resultado Desempenho
Parâmetros ou Regras Implícitas
MACHINE LEARNING

Dados

Rótulo (label)

Modelo
Entrada Resultado Desempenho
Parâmetros ou Regras Implícitas

Atualização
novo
exemplo

Spam Não Spam


novo novo
exemplo exemplo

Modelo treino

Spam Não Spam Spam Não Spam


QUANDO É VANTAJOSO USAR ML
QUANDO É VANTAJOSO USAR ML
● Problemas que precisam de muitos ajustes finos ou extensa lista de
regras
● Problemas que utilizam heurísticas (respostas imperfeitas) para
geração de resultados
QUANDO É VANTAJOSO USAR ML
● Problemas que precisam de muitos ajustes finos ou extensa lista de
regras
● Problemas que utilizam heurísticas (respostas imperfeitas) para
geração de resultados
● Problemas complexos sem uma boa solução tradicional
(reconhecimento de imagem ou voz)
QUANDO É VANTAJOSO USAR ML
● Problemas que precisam de muitos ajustes finos ou extensa lista de
regras
● Problemas que utilizam heurísticas (respostas imperfeitas) para
geração de resultados
● Problemas complexos sem uma boa solução tradicional
(reconhecimento de imagem ou voz)
● Adaptabilidade, ou a capacidade de se adaptar a novos dados e
informações
QUANDO É VANTAJOSO USAR ML
● Problemas que precisam de muitos ajustes finos ou extensa lista de
regras
● Problemas que utilizam heurísticas (respostas imperfeitas) para
geração de resultados
● Problemas complexos sem uma boa solução tradicional
(reconhecimento de imagem ou voz)
● Adaptabilidade, ou a capacidade de se adaptar a novos dados e
informações
● Dados de qualidade e úteis para modelos de ML
QUANDO É VANTAJOSO
USAR ML
● Problemas que precisam de muitos ajustes finos ou extensa lista de regras
● Problemas que utilizam heurísticas (respostas imperfeitas) para geração
de resultados
● Problemas complexos sem uma boa solução tradicional (Ex:
reconhecimento de voz)
● Adaptabilidade, capacidade de se adaptar a novos dados e informações
● Problemas com alto volume de dados, com exemplos de entradas
e saídas do passado
● Dados de qualidade e úteis para modelos de ML
DADOS REAIS SÃO COMPLEXOS

Estruturados (tabulares)

Área m² # Quartos Preço R$


● Garbage in, Garbage Out
#1 faltante 1 200000
● Dados incorretos
#2 35 faltante 0.001
● Valores faltantes #3 65 2 400000

#4 40 1 20
DADOS REAIS SÃO COMPLEXOS

Estruturados (tabulares)

Área m² # Quartos Preço R$


● Garbage in, Garbage Out
#1 faltante 1 200000
● Dados incorretos
#2 35 faltante 0.001
● Valores faltantes #3 65 2 400000

#4 40 1 20
DADOS REAIS SÃO COMPLEXOS
Estruturados (tabulares)

Área m² # Quartos Preço R$


● Garbage in, Garbage Out
#1 faltante 1 200000

● Dados incorretos #2 35 faltante 0.001

● Valores faltantes #3 65 2 400000

#4 40 1 20
● Diferentes tipos de dados
Desestruturados
○ imagem, áudio, texto
DATA E ML
OS TIPOS DE
APRENDIZADOS
Machine Learning

Supervisionado Não supervisionado Por reforço


(dados possuem labels) (dados não possuem labels)

Classificação Regressão
(retorna classes) (retorna um número real)
APRENDIZADO SUPERVISIONADO
X Y
Entrada f(X) Saída
(features) (target)
APRENDIZADO SUPERVISIONADO
X Y
f(X) Saída
Entrada (target)

Entrada (X) Saída (Y) Aplicação

email Spam? (sim/não) Filtro de spams


histórico vendas Vendas futuras Previsão de vendas
perfil do cliente Inadimplente (sim/não) Concessão de crédito
imagem do produto Defeito? (sim/não) Inspeção visual
REGRESSÃO
Conjunto de treinamento
Área m² (X) Preço R$ (y)

#1 45 200 mil
X f(X) Valor real (y)
#2 35 153 mil

#3 65 400 mil

... ... ...

Novos dados, não rotulados


Área m² (X) Preço R$ (y)

#1 25 ???

#2 75 ???
REGRESSÃO
Área m² (X) Preço R$ (y)

#1 45 200 mil
X f(X) Valor real (y)
#2 35 153 mil

#3 65 400 mil

... ... ...


X
X
X
X
Novos dados, não rotulados X

Preço
X
X
Área m² (X) Preço R$ (y)
X X
X
#1 25 ??? X
X

#2 75 ???
área
REGRESSÃO
Conjunto de treinamento
Área m² (X) Preço R$ (y)

#1 45 200 mil
X f(X) Valor real (y)
#2 35 153 mil

#3 65 400 mil

... ... ...


X
X
X
X
Novos dados, não rotulados X

Preço
X
X
Área m² (X) Preço R$ (y)
X X
X
#1 25 ??? X
X

#2 75 ???
área
REGRESSÃO
Conjunto de treinamento
Área m² (X1) Área m² (X2) Preço R$ (y)

#1 45 1 200 mil
X f(X) Valor real (y)
#2 35 1 153 mil

#3 65 2 400 mil

... ... ... ...

Novos dados, não rotulados


Área m² (X) Área m² (X2) Preço R$ (y)

#1 25 1 ???

#2 75 3 ???
CLASSIFICAÇÃO
Conjunto de treinamento
Gato ou
Imagem (X)
Cachorro (Y)

#1 Cachorro
X f(X) Classe (y)
#2 Gato

#3 Cachorro

... ... ...

Novos dados, não rotulados


Gato ou
Imagem (X)
Cachorro (Y)

#1 ???

#2 ???
CLASSIFICAÇÃO
Conjunto de treinamento
Gato ou
Imagem (X)
Cachorro (Y)

#1 Cachorro
X f(X) Classe (y)
#2 Gato

#3 Cachorro

... ... ... O O


O
O O
Novos dados, não rotulados X
x O
O

X1
X
Gato ou X O
Imagem (X) X
Cachorro (Y) X
X X
#1 ??? X

#2 ??? X2
APRENDIZADO NÃO-SUPERVISIONADO
● Clusterização (agrupamento)

● Detecção de anomalias

● Redução de dimensionalidade
FEATURE 2

FEATURE 2

FEATURE 1 FEATURE 1

Fonte: Hands-on machine learning with scikit-learn, keras, and tensorflow, 2019
ML NO DIA A DIA
Produtos de dados

Engenheiro de ML

Cientista de Dados

Analista de Dados

Análises e tomada
de decisão
★ ★★ ★★★

Engenheiro de dados Analistas e Cientistas Engenheiros de ML


e Analistas de BI de Dados e Cientistas de Dados

A empresa possui um Data A empresa constrói produtos


De forma manual são Wherehouse ou um Datalake, A empresa toma decisões de Machine Learning e de
extraídas informações relatórios são orientadas a dados, insights e inteligência artificial que
dos diferentes sistemas padronizados, existem KPIs análises adhocs são relevantes impactam diretamente os
de negócio clientes

Maturidade em dados
Entendimento do problema

Obtenção dos dados

Exploração e análise dos dados

Treinamento do modelo

Avaliar desempenho

Realizar predições
Apresentar soluções

Fonte: Hands-on machine learning with scikit-learn, keras, and tensorflow, 2019
CONCLUSÃO
PANORAMA GERAL ...
● Aprendizado de máquina permite que computadores aprendam a partir dos dados

● Os tipos de aprendizados são: supervisionados, não supervisionados

● Dentre os supervisionados: temos os problemas de classificação e de regressão

● Existem diferentes níveis de maturidade em relação à aplicação de ML nas empresas

○ Geração de insights

○ Criação de produtos de dados

● Os cientistas de dados, os analistas de dados e os engenheiros de ML são os profissionais


que geralmente trabalham com ML

● Existe um processo na execução de um projeto de ML

Você também pode gostar