Você está na página 1de 5

22/02/2023 18:11 Descomplica | Business Analytics

Exemplo de Algoritmos usados com


Aprendizagem Supervisionada

A seguir, daremos dois exemplos de Algoritmos usados com


Aprendizagem Supervisionada: um do tipo predição e outro do
tipo classificação.
Exemplo 1: Prevendo o valor de um imóvel.
Suponha que você possui um conjunto de dados sobre imóveis, como por
exemplo:


Área construída


Área do terreno


Quantidade de quartos


Quantidade de banheiros


Tipo de imóvel (casa térrea, sobrado, apartamento)


Vagas na garagem


https://aulas.descomplica.com.br/pos/mba-em-business-intelligence-0b6a63/turma/business-analytics-e68b31/aula/especificacao-32cd62 1/5
22/02/2023 18:11 Descomplica | Business Analytics

Número do andar


Endereço


Valor

Gostaríamos de poder prever o valor de um novo imóvel com base nos


diversos exemplos que já possuímos.
O valor do imóvel é a variável dependente, pois o seu valor depende das
outras variáveis, que são as variáveis independentes. Nosso conjunto de
dados de imóveis será usada para treinar um modelo de predição, e
assim poderemos fazer a predição de qualquer novo imóvel, com base
em suas variáveis independentes.
Para a criação de um modelo de predição de valores contínuos, no caso o
valor do imóvel, utilizamos Algoritmos de Análise de Regressão, que é
usada para modelar a relação entre a variável dependente e uma ou mais
variáveis independentes.
Se tivéssemos apenas as variáveis área construída e valor do imóvel,
poderíamos fazer um gráfico em seus pares de valores e encontrar uma
reta que minimiza os erros, melhor se ajustando aos valores do conjunto
de dados de aprendizagem. Mas se tivéssemos apenas as variáveis área
construída, quantidade de cômodos e valor do imóvel, poderíamos
também fazer um gráfico com os seus trios de valores e encontrar um
plano que minimiza os erros. Mas vamos utilizar todas as variáveis que
possuímos, que deverão ser ajustadas e convertidas para valores
numéricos antes de poderem ser utilizadas para a montagem de um
gráfico n-dimensional. O modelo encontra um hiperplano que minimiza os
erros se ajustando aos valores. A equação desse hiperplano é o modelo

https://aulas.descomplica.com.br/pos/mba-em-business-intelligence-0b6a63/turma/business-analytics-e68b31/aula/especificacao-32cd62 2/5
22/02/2023 18:11 Descomplica | Business Analytics

de predição para o valor do imóvel. Na figura abaixo temos dois exemplos


de regressão, com duas e três variáveis.

Existem diversos tipos de algoritmos para fazer análise de regressão, dos


quais podemos citar: regressão linear (reta, plano ou hiperplano),
regressão polinomial (curvas ou superfícies curvas), regressão logística
(duas níveis) etc.
Exemplo 2: Classificando um eMail como normal ou spam.
Suponha que você possui diversos eMails já classificados como eMail
ham (normal) ou spam. Os dados que você possui são:


eMail do Remetente


eMail do destinatário


assunto


texto


data do eMail

https://aulas.descomplica.com.br/pos/mba-em-business-intelligence-0b6a63/turma/business-analytics-e68b31/aula/especificacao-32cd62 3/5
22/02/2023 18:11 Descomplica | Business Analytics


texto de eMail


anexos


se é normal ou spam

Gostaríamos de poder classificar o tipo de eMail novo com base nos


diversos exemplos que já possuímos.
O tipo do eMail (ham ou spam) é a variável dependente, pois o seu valor
depende das outras variáveis, que são as variáveis independentes. Nosso
conjunto de dados de eMails será usado para treinar um modelo de
classificação, e assim poderemos classificar qualquer novo eMail com
base em suas variáveis independentes.
Para a criação de um modelo de classificação de valores categóricos, no
caso se um eMail é ham ou spam, podemos utilizar o Algoritmos KNN (K
Nearest Neighbors), que é usado para modelar a relação entre a variável
dependente e uma ou mais variáveis independentes.
Os atributos dos eMails devem ser convertidos para valores numéricos
antes de poderem formar um gráfico n-dimensional. Quando um novo
eMail for classificado, ele é posicionado no gráfico com base nos valores
de seus atributos e depois, seus vizinhos são verificados. Se ele for ham,
então ele deverá ter mais vizinhos desse tipo. Se ele for Spam, então ele
terá mais vizinhos desse outro tipo. Com KNN observamos que os
semelhantes ficam próximos uns dos outros.
Na figura abaixo, o classificador KNN (K Nearest Neighbors), com base
em K (número de vizinhos mais próximos), procura classificar o novo
eMail (quadrado amarelo) como sendo ham (estrela azul) ou spam
(triângulo verde). Observe que se k=3 ele será classificado como spam,

https://aulas.descomplica.com.br/pos/mba-em-business-intelligence-0b6a63/turma/business-analytics-e68b31/aula/especificacao-32cd62 4/5
22/02/2023 18:11 Descomplica | Business Analytics

mas se k=7 ele será classificado como ham. É importante, na fase de


treinamento, identificar o valor de k que mais acerta na classificação dos
eMails, antes de poder usá-lo para classificar novos eMails.

Além do KNN, existem diversos outros algoritmos para fazer classificação,


dos quais podemos citar: SVM (Support Vector Machine), Nayve Bayes
Classification, Decision Tree etc.

Importante notar que a quantidade de atributos utilizados para treinar o


modelo aumenta o tempo de aprendizagem, pois cada atributo é uma
dimensão a mais. Isso é chamado de “A maldição da dimensionalidade” e
determinar a quantidade de atributos exatos para um melhor desempenho do
algoritmo é fundamental para que o treinamento ocorra em tempo razoável.

Ir para questão

https://aulas.descomplica.com.br/pos/mba-em-business-intelligence-0b6a63/turma/business-analytics-e68b31/aula/especificacao-32cd62 5/5

Você também pode gostar