Você está na página 1de 6

FSG - FACULDADE DA SERRA GAÚCHA

Alunos: Renan Mussatto (0256371), Bruna Fabro (38358611), Kevin Galarza (23382783), Alan
Paim Muller (32447680), Luan Zanon (26298716)
Disciplina: Inteligência Artificial e Aprendizado de Máquina
Data: 10/04/2024

1. Aprendizado Supervisionado
1.1. Classificação
Um algoritmo de aprendizado supervisionado de classificação é uma técnica de
inteligência artificial que categoriza dados em classes pré-definidas. Ele opera em três fases
principais: treinamento, validação e teste. Durante o treinamento, o algoritmo aprende
padrões nos dados rotulados. Na fase de validação, seu desempenho é avaliado. E na fase
de teste, ele é utilizado para classificar novos dados. Algoritmos comuns incluem regressão
logística, árvores de decisão e máquinas de vetores de suporte.
Uma aplicação comum do aprendizado supervisionado de classificação é na detecção
de spam em e-mails.

Conjunto de Dados Rotulados: Primeiro, um conjunto de e-mails é coletado e rotulado


como "spam" ou "não spam" com base em sua natureza. Cada e-mail é representado como
um vetor de características, que podem incluir palavras-chave, comprimento do e-mail,
presença de links, etc.
Treinamento do Modelo: Em seguida, um algoritmo de aprendizado supervisionado
de classificação, como regressão logística ou árvores de decisão, é treinado usando esse
conjunto de dados rotulados. O modelo aprende padrões nos e-mails rotulados como spam
ou não spam e cria uma função que pode distinguir entre os dois tipos.
Validação e Ajuste de Parâmetros: O modelo é validado usando um conjunto de
dados separado para verificar sua precisão. Os parâmetros do modelo podem ser ajustados
para melhorar seu desempenho, se necessário.
Teste do Modelo: Uma vez validado, o modelo é usado para classificar novos e-mails
como spam ou não spam com base nas características que ele aprendeu durante o
treinamento.

Comparando com o aprendizado não supervisionado e com a associação: O


aprendizado supervisionado de classificação e a associação exigem dados rotulados ou
transacionais, enquanto o aprendizado não supervisionado opera em dados não rotulados.
O aprendizado supervisionado de classificação é usado para prever categorias ou classes,
enquanto o aprendizado não supervisionado e a associação buscam descobrir estruturas ou
padrões nos dados. Cada abordagem tem suas próprias aplicações específicas, e a escolha
depende da natureza dos dados e dos objetivos da análise.

1.2. Regressão
É uma técnica de aprendizado de máquina usada para prever uma variável contínua
com base em um conjunto de variáveis independentes. Tem o objetivo de encontrar uma relação
entre os dados de entrada com os itens de saída.
Neste tipo de algoritmo, a saída não é uma categorização, como no de classificação,
mas sim uma variável numérica. No algoritmo de classificação é inserida uma massa de dados
com suas devidas categorizações e o algoritmo é responsável por identificar os padrões nos
dados de cada grupo para que possa categorizar os próximos dados recebidos. No algoritmo de
regressão funciona diferente.
O aprendizado de aprendizado por regressão tipo de algoritmo funciona - de uma forma
bem simplificada - desta maneira: é feita uma análise dos valores inseridos no input e traçado
uma linha (regressão linear) para representar eles, dessa forma, o algoritmo consegue prever o
que provavelmente seriam os próximos valores.
O principal e mais usado tipo de regressão é o de regressão linear, porém, existem
outros tipos de algoritmos de regressão, que dependendo do objetivo, são mais completos e
podem atingir melhor o resultado desejado. Alguns deles são:
● Regressão Linear;
● Regressão Logística;
● Regressão Polinomial;
● Regressão de Árvore de Decisão;
● Regressão de Floresta Aleatória.
Como o algoritmo de aprendizado por regressão trabalha com retornos numéricos,
existem muitas aplicações em setores financeiros. Prever preços de imóveis, por exemplo, é
algo em que é possível de ser calculado utilizando um algoritmo de regressão linear. Com base
em uma massa de dados, com valores e informações sobre outros imóveis, este algoritmo
consegue dar uma estimativa de valor.
Na área da saúde também é possível aplicar algoritmos de regressão. Um exemplo, é na
previsão de resultados médicos, sendo possível identificar com antecedência uma possível
complicação pós cirúrgica em um paciente. Além disso, também é possível, com base em
informações de outros pacientes, identificar padrões que são comuns em pessoas que
desenvolveram determinadas doenças e fazer um trabalho preventivo para que não aconteça
em outras pessoas.

2. Aprendizado Não Supervisionado


2.1. Agrupamento (Clustering)
O Clustering é uma técnica de aprendizado não supervisionado onde os dados são
organizados em grupos, com base em similaridades, de forma que maximize a semelhança
entre os dados dentro do cluster e minimize a semelhança entre os outros clusters. Deve ser
usado quando se pretende identificar padrões e estrutura nesses dados sem qualquer
parâmetro conhecido. Quando agrupados os dados, pode-se utilizar os resultados de duas
formas: para resumir os dados de toda base de dados e pegar apenas as características
comuns entre si, e não todos atributos em cada um dos clusters. Ou para preparação dos dados
na utilização de outros métodos de mineração de dados, como por exemplo, o método de
classificação de aprendizado supervisionado de cada um dos clusters, adicionando um rótulo.
Dois dos principais algoritmos de clustering são o K-Means e o DBSCAN, e abaixo
aprofundaremos em ambos:
K-Means: agrupamento de dados em K clusters, em formatos esféricos, onde K é um
número de escolha do usuário. Esse número significa a quantidade de grupos necessários que o
usuário deseja. Para facilitar na decisão, pode-se levar em conta os objetivos da análise,
insights esperados no resultado ou com técnicas de validação de cluster, como o método do
cotovelo(Elbow Method), analisando a maior quebra na curva do gráfico de número de clusters,
no ponto exato que a adição de mais clusters não traz nada significativo.
Para executar com perfeição este algoritmo, segue-se os passos:
1. Escolher o valor de K com base em técnicas citadas acima e selecionar aleatoriamente
K pontos como centróides iniciais.
2. Atribuir pontos aos clusters calculando a distância entre cada ponto de dados e os
centróides, juntando cada ponto ao cluster ao qual tem o centróide mais próximo.
3. Com todos os dados associados aos clusters, precisa-se recalcular os centroides de
cada cluster, calculando a média das coordenadas de cada ponto pertencente a cada
cluster, encontrando assim, um centróide mais assertivo.
4. Realizar a convergência, repetindo os passos 2 e 3, até que os centróides não se
movam muito entre as execuções.
5. Resultados mostrados, obtemos os centróides finais e a atribuição de cada dado/ponto
em um dos clusters.
Após obter os clusters, os resultados podem ser utilizados para a análise de mercado,
identificando padrões de compra em diferentes segmentos de mercados, porém tem
uma fraqueza na detecção de anomalias ou outliers que podem acabar distorcendo os
resultados dos clusters.

DBSCAN: agrupamento de pontos de dados, de formas e tamanhos arbitrários, com


base na densidade local, sem a necessidade de especificar o número de clusters antes da
execução, identificando regiões com mais densidade no gráfico e usando como parâmetro para
criação dos clusters, isolando anomalias ou outliers em locais de baixa densidade, aumentando
os clusters conforme o ponto central da região com alto volume de dados.
Os passos do algoritmo são:
1. Definição dos parâmetros, número mínimo de pontos dentro de uma determinada área
para que tenha um ponto central, e a distância máxima que define a vizinhança de um
ponto central. Todos os pontos dentro da “vizinhança” são considerados do mesmo
cluster.
2. Durante a adição dos dados, se uma determinada região tiver o número mínimo de
pontos, será criado um cluster, e a partir disso, todos os pontos que estiverem dentro da
distância limite do ponto central, se tornará parte do agrupamento.
3. O processo continua até a análise de todos os pontos, identificando outliers que não
estejam dentro de nenhuma vizinhança e em regiões com pouca densidade.
4. Resultados mostrados, obtemos os clusters identificados e a rotulação dos outliers.
Obtido os clusters, é bem comum utilizar os resultados para detecção de anomalias ou
outliers, se os dados usados no algoritmo forem de transações de cartão de créditos recentes de
uma instituição financeira, entende-se como fraudes.

2.2. Associação
A associação consiste em identificar relações entre diferentes itens ou variáveis em um
conjunto de dados, existem diversos algoritmos para descoberta de regras de associação, mas
dois dos mais populares são o Apriori e o Eclat.
O algoritmo Apriori funciona em etapas para encontrar conjuntos frequentes de itens e
gerar regras a partir desses conjuntos, na primeira etapa analisa o conjunto de dados e identifica
quais itens aparecem com mais frequência ou com uma frequência mínima definida, na etapa 2
é combinado os itens frequentes encontrados na etapa anterior para formar pares de itens, após
isso conta a frequência desses pares no conjunto de dados e identifica os pares frequentes, na
etapa 3 e posteriores é gerado um conjuntos de itens frequentes, onde o algoritmo continua
gerando esses conjuntos, combinando os conjuntos e contando a frequência desses novos
conjuntos, continuando com esse processo até que não seja possível gerar mais. Após
encontrar os conjuntos frequentes ele usa-os para gerar regras de associação, sendo as mais
comuns as regras de suporte, confiança e lift. Na de Suporte mede a proporção de registros que
contêm os itens de uma regra específica, quanto maior o suporte, mais frequente a regra é no
conjunto de dados. Na de Confiança mede a probabilidade de que uma regra seja verdadeira,
calculando-a ao dividir o número de registros que contêm tanto o antecedente quanto o
consequente da regra pelo número de registros que contêm apenas o antecedente, quanto
maior a confiança, mais forte é a associação entre o antecedente e o consequente. No Lift mede
o aumento na probabilidade de ocorrência do consequente dado o antecedente, em comparação
com sua ocorrência aleatória, o valor maior que 1 indica uma associação positiva, indicando que
a ocorrência do antecedente aumenta a probabilidade do consequente.
Um exemplo para o uso do Apriori é em compras em um mercado, caso queiramos
encontrar uma associação entre produtos visando uma melhor organização da loja e oferecer
promoções personalizadas. Primeiro definimos os itens frequentes, digamos que um item é
frequente ao aparecer em pelo menos 100 das 1000 transações, após a análise do conjunto de
dados identificamos que “pão” é frequente, pois aparece em 200 transações. Agora vamos
definir pares frequentes usando o item “pão” como base, suponhamos que “pão” e “leite”
apareçam em 150 transações, portanto, “pão” e “leite” são um par frequente. Após definir um
par, agora vamos definir um conjunto de três itens frequentes usando “pão” e “leite” como base,
digamos que “pão”, “leite” e “manteiga” apareçam junto em 100 transações, portanto, formam
um conjunto de três itens frequentes. Com os conjuntos definidos, vamos usar métricas
(suporte, confiança e lift) para avaliar as regras geradas, como por exemplo a regra “Se um
cliente comprar “pão” e “leite”, é provável que compre “manteiga”, essa regra terá um suporte de
100 transações, uma confiança de 100/150 e um lift maior que 1.
O algoritmo Eclat, que significa “Equivalence Class Transformation” se baseia na
contagem de suporte vertical, que mede a frequência com que um item aparece em diferentes
transações, utilizando uma estrutura de dados chamada “árvore de prefixos” para otimizar o
processo de busca de conjuntos frequentes, por exemplo, com um conjunto de dados de
transações de clientes em um site de comércio eletrônico é possível identificar que a compra de
um smartphone é frequentemente associada a compra de uma capa de proteção, gerando uma
regra como “Se um cliente comprar um smartphone, é provável que compre uma capa de
proteção”.

2.3. Sumarização
Sumarização é o processo de resumir um texto fonte, identificando e destacando partes
importantes ou ainda gerando sentenças relevantes sobre o mesmo. Os sumários visam conter
o máximo de informações no mínimo espaço. A necessidade de gerar esses resumos
automaticamente cresce a cada dia com o aumento de dados gerados pela internet. O algoritmo
de sumarização é um modo automático de realizar essa tarefa, permitindo assim, que o leitor
consiga identificar o tema do texto apenas lendo a sumarização gerada pela Inteligência
Artificial, e decida se quer ou não prosseguir com a leitura.
Existem dois tipos de métodos de sumarização: o superficial e o profundo, sendo o primeiro o
mais utilizado por não necessitar de uma alta complexidade.
Alguns dos métodos mais utilizados são:

● Extração de frases importantes: o método identifica as frases mais importantes do texto


com base na repetição de palavras chaves ou relevância. As frases são utilizadas para
formar o resumo;
● Extração de palavras chaves: algoritmos como o TF-IDF (Term Frequency-Inverse
Document Frequency) ou TextRank identificam as palavras chaves mais relevantes e as
utilizam para a formação do resumo;
● Redes neurais convolucionais: as RNNs, como LSTMs (Long Short-Term Memory) ou
GRUs (Gated Recurrent Units) podem ser utilizadas para entender a estrutura do texto e
gerar o resumo;
● Métodos Graph-Based: baseado em grafos, o método representa o texto como um (os
nós são sentenças ou palavras e as arestas representam a relação entre eles). Logo
após, analisa-se o grafo e o algoritmo gera o resumo.

Uma aplicação para o algoritmo de sumarização seria sumarizar textos acadêmicos. Isso
ajudaria os leitores a terem uma maior noção sobre o conteúdo deles e os mesmos poderiam
decidir se desejam progredir com a leitura ou não.
Outra aplicação seria sumarizar notícias de jornais ou sites, pois muitas vezes os leitores
querem apenas saber do que se trata e de alguns detalhes importantes, para assim decidir se
querem aprofundar a leitura ou não.

3. Conclusão
Os algoritmos de aprendizado de máquina não supervisionado "Agrupamento
(Clustering)", "Associação" e "Sumarização" se diferenciam em seus objetivos. O principal objeto
do Agrupamento (Clustering) é agrupar dados semelhantes em clusters ou grupos, onde os
dados dentro de um grupo são mais semelhantes entre si do que com os dados de outros
grupos, divide os dados em grupos com base em medidas de similaridade, como distância
euclidiana ou similaridade de características. No algoritmo de Associação o objetivo é encontrar
padrões frequentes, correlações ou associações entre itens em um conjunto de dados, são
comumente utilizados para análise de cestas de compras em e-commerce ou para
recomendação de produtos, identificam itens frequentemente comprados juntos ou sequências
frequentes de itens em uma transação. Na Sumarização o objetivo é reduzir a quantidade de
dados, preservando as informações mais importantes ou significativas, como redução de texto
longo para uma versão mais concisa ou redução de dimensionalidade em dados, preservando o
máximo de informação possível.
REFERÊNCIAS

MARTINS, C. et al. INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA. [s.l: s.n.]. Disponível


em: <https://sites.icmc.usp.br/taspardo/rtdc00201-cmartinsetal.pdf>. Acesso em: 10 abr.
2024.

AZANK, F. Clustering — Conceitos básicos, principais algoritmos e aplicação. Disponível


em:<https://medium.com/turing-talks/clustering-conceitos-b%C3%A1sicos-principais-algorit
mos-e-aplica%C3%A7%C3%A3o-ace572a062a9>. Acesso em: 12 abr. 2024.

TORRES, M. et al. Agrupamento -“Clustering”. [s.l: s.n.]. Disponível em:


<https://www.dei.isep.ipp.pt/~paf/proj/Julho2003/Clustering.pdf>. Acesso em: 12 abr. 2024.

ALMEIDA, V. Aprendizado não supervisionado e regras de associação: Descobrindo


padrões ocultos nos seus dados. Disponivel em:
<https://blog.grancursosonline.com.br/aprendizado-nao-supervisionado-e-regras-de-associa
cao-descobrindo-padroes-ocultos-nos-seus-dados/>. Acesso em: 13 abr. 2024.

Você também pode gostar