Escolar Documentos
Profissional Documentos
Cultura Documentos
Alunos: Renan Mussatto (0256371), Bruna Fabro (38358611), Kevin Galarza (23382783), Alan
Paim Muller (32447680), Luan Zanon (26298716)
Disciplina: Inteligência Artificial e Aprendizado de Máquina
Data: 10/04/2024
1. Aprendizado Supervisionado
1.1. Classificação
Um algoritmo de aprendizado supervisionado de classificação é uma técnica de
inteligência artificial que categoriza dados em classes pré-definidas. Ele opera em três fases
principais: treinamento, validação e teste. Durante o treinamento, o algoritmo aprende
padrões nos dados rotulados. Na fase de validação, seu desempenho é avaliado. E na fase
de teste, ele é utilizado para classificar novos dados. Algoritmos comuns incluem regressão
logística, árvores de decisão e máquinas de vetores de suporte.
Uma aplicação comum do aprendizado supervisionado de classificação é na detecção
de spam em e-mails.
1.2. Regressão
É uma técnica de aprendizado de máquina usada para prever uma variável contínua
com base em um conjunto de variáveis independentes. Tem o objetivo de encontrar uma relação
entre os dados de entrada com os itens de saída.
Neste tipo de algoritmo, a saída não é uma categorização, como no de classificação,
mas sim uma variável numérica. No algoritmo de classificação é inserida uma massa de dados
com suas devidas categorizações e o algoritmo é responsável por identificar os padrões nos
dados de cada grupo para que possa categorizar os próximos dados recebidos. No algoritmo de
regressão funciona diferente.
O aprendizado de aprendizado por regressão tipo de algoritmo funciona - de uma forma
bem simplificada - desta maneira: é feita uma análise dos valores inseridos no input e traçado
uma linha (regressão linear) para representar eles, dessa forma, o algoritmo consegue prever o
que provavelmente seriam os próximos valores.
O principal e mais usado tipo de regressão é o de regressão linear, porém, existem
outros tipos de algoritmos de regressão, que dependendo do objetivo, são mais completos e
podem atingir melhor o resultado desejado. Alguns deles são:
● Regressão Linear;
● Regressão Logística;
● Regressão Polinomial;
● Regressão de Árvore de Decisão;
● Regressão de Floresta Aleatória.
Como o algoritmo de aprendizado por regressão trabalha com retornos numéricos,
existem muitas aplicações em setores financeiros. Prever preços de imóveis, por exemplo, é
algo em que é possível de ser calculado utilizando um algoritmo de regressão linear. Com base
em uma massa de dados, com valores e informações sobre outros imóveis, este algoritmo
consegue dar uma estimativa de valor.
Na área da saúde também é possível aplicar algoritmos de regressão. Um exemplo, é na
previsão de resultados médicos, sendo possível identificar com antecedência uma possível
complicação pós cirúrgica em um paciente. Além disso, também é possível, com base em
informações de outros pacientes, identificar padrões que são comuns em pessoas que
desenvolveram determinadas doenças e fazer um trabalho preventivo para que não aconteça
em outras pessoas.
2.2. Associação
A associação consiste em identificar relações entre diferentes itens ou variáveis em um
conjunto de dados, existem diversos algoritmos para descoberta de regras de associação, mas
dois dos mais populares são o Apriori e o Eclat.
O algoritmo Apriori funciona em etapas para encontrar conjuntos frequentes de itens e
gerar regras a partir desses conjuntos, na primeira etapa analisa o conjunto de dados e identifica
quais itens aparecem com mais frequência ou com uma frequência mínima definida, na etapa 2
é combinado os itens frequentes encontrados na etapa anterior para formar pares de itens, após
isso conta a frequência desses pares no conjunto de dados e identifica os pares frequentes, na
etapa 3 e posteriores é gerado um conjuntos de itens frequentes, onde o algoritmo continua
gerando esses conjuntos, combinando os conjuntos e contando a frequência desses novos
conjuntos, continuando com esse processo até que não seja possível gerar mais. Após
encontrar os conjuntos frequentes ele usa-os para gerar regras de associação, sendo as mais
comuns as regras de suporte, confiança e lift. Na de Suporte mede a proporção de registros que
contêm os itens de uma regra específica, quanto maior o suporte, mais frequente a regra é no
conjunto de dados. Na de Confiança mede a probabilidade de que uma regra seja verdadeira,
calculando-a ao dividir o número de registros que contêm tanto o antecedente quanto o
consequente da regra pelo número de registros que contêm apenas o antecedente, quanto
maior a confiança, mais forte é a associação entre o antecedente e o consequente. No Lift mede
o aumento na probabilidade de ocorrência do consequente dado o antecedente, em comparação
com sua ocorrência aleatória, o valor maior que 1 indica uma associação positiva, indicando que
a ocorrência do antecedente aumenta a probabilidade do consequente.
Um exemplo para o uso do Apriori é em compras em um mercado, caso queiramos
encontrar uma associação entre produtos visando uma melhor organização da loja e oferecer
promoções personalizadas. Primeiro definimos os itens frequentes, digamos que um item é
frequente ao aparecer em pelo menos 100 das 1000 transações, após a análise do conjunto de
dados identificamos que “pão” é frequente, pois aparece em 200 transações. Agora vamos
definir pares frequentes usando o item “pão” como base, suponhamos que “pão” e “leite”
apareçam em 150 transações, portanto, “pão” e “leite” são um par frequente. Após definir um
par, agora vamos definir um conjunto de três itens frequentes usando “pão” e “leite” como base,
digamos que “pão”, “leite” e “manteiga” apareçam junto em 100 transações, portanto, formam
um conjunto de três itens frequentes. Com os conjuntos definidos, vamos usar métricas
(suporte, confiança e lift) para avaliar as regras geradas, como por exemplo a regra “Se um
cliente comprar “pão” e “leite”, é provável que compre “manteiga”, essa regra terá um suporte de
100 transações, uma confiança de 100/150 e um lift maior que 1.
O algoritmo Eclat, que significa “Equivalence Class Transformation” se baseia na
contagem de suporte vertical, que mede a frequência com que um item aparece em diferentes
transações, utilizando uma estrutura de dados chamada “árvore de prefixos” para otimizar o
processo de busca de conjuntos frequentes, por exemplo, com um conjunto de dados de
transações de clientes em um site de comércio eletrônico é possível identificar que a compra de
um smartphone é frequentemente associada a compra de uma capa de proteção, gerando uma
regra como “Se um cliente comprar um smartphone, é provável que compre uma capa de
proteção”.
2.3. Sumarização
Sumarização é o processo de resumir um texto fonte, identificando e destacando partes
importantes ou ainda gerando sentenças relevantes sobre o mesmo. Os sumários visam conter
o máximo de informações no mínimo espaço. A necessidade de gerar esses resumos
automaticamente cresce a cada dia com o aumento de dados gerados pela internet. O algoritmo
de sumarização é um modo automático de realizar essa tarefa, permitindo assim, que o leitor
consiga identificar o tema do texto apenas lendo a sumarização gerada pela Inteligência
Artificial, e decida se quer ou não prosseguir com a leitura.
Existem dois tipos de métodos de sumarização: o superficial e o profundo, sendo o primeiro o
mais utilizado por não necessitar de uma alta complexidade.
Alguns dos métodos mais utilizados são:
Uma aplicação para o algoritmo de sumarização seria sumarizar textos acadêmicos. Isso
ajudaria os leitores a terem uma maior noção sobre o conteúdo deles e os mesmos poderiam
decidir se desejam progredir com a leitura ou não.
Outra aplicação seria sumarizar notícias de jornais ou sites, pois muitas vezes os leitores
querem apenas saber do que se trata e de alguns detalhes importantes, para assim decidir se
querem aprofundar a leitura ou não.
3. Conclusão
Os algoritmos de aprendizado de máquina não supervisionado "Agrupamento
(Clustering)", "Associação" e "Sumarização" se diferenciam em seus objetivos. O principal objeto
do Agrupamento (Clustering) é agrupar dados semelhantes em clusters ou grupos, onde os
dados dentro de um grupo são mais semelhantes entre si do que com os dados de outros
grupos, divide os dados em grupos com base em medidas de similaridade, como distância
euclidiana ou similaridade de características. No algoritmo de Associação o objetivo é encontrar
padrões frequentes, correlações ou associações entre itens em um conjunto de dados, são
comumente utilizados para análise de cestas de compras em e-commerce ou para
recomendação de produtos, identificam itens frequentemente comprados juntos ou sequências
frequentes de itens em uma transação. Na Sumarização o objetivo é reduzir a quantidade de
dados, preservando as informações mais importantes ou significativas, como redução de texto
longo para uma versão mais concisa ou redução de dimensionalidade em dados, preservando o
máximo de informação possível.
REFERÊNCIAS