Escolar Documentos
Profissional Documentos
Cultura Documentos
Associao Utilizando
Algoritmo Apriori e
WEKA
Jos Cavalcante Reis Neto
Apresentao IFAL 23/07/2014
Quem sou eu ?
Bacharel em Cincia da Computao 2012;
Mestrando no Programa de ps-graduao em
Informtica da UFAL (Mestrado em Informtica)
Colaborador do Laboratrio de Computao
Pervasiva da UFAL ( COMPE)
Pesquisando atualmente em M-Health,
HealthCare, Cyber-Physical Systems e
Verificao Formal (Petri Nets), Segurana na
especificao de dispositivos mdicos baseado
na ISO 14971;
Roteiro
Introduo
Motivao
Contador de Suporte
Algoritmo Apriori
WEKA
Concluso
Introduo O que minerao
a transformao de grandes
quantidades de dados em padres e
regras significativas.
Empresas como Google e Yahoo - o que
eles planejam fazer com com todas as
suas informaes?
A Walmart uma das mais avanadas
empresas em minerao de dados e na
aplicao de seus resultados ao negcio.
Introduo Anlise de
Associao
Est sendo largamente utilizada no
mercado;
Descobrir relacionamentos contidos de
forma implcita em grandes conjuntos de
dados;
Representar padres, sempre
relacionando dois conjuntos distintos para
obter informao.
Introduo Anlise de
Associao
Uma regra de associao uma expresso de
implicao que segue a forma X Y , onde X e Y
so conjuntos disjuntos de itens ou seja X Y
Motivao
Apresentar relacionamentos entre itens que a
principio so desconhecidos;
(X Y )
c( X Y )
(X )
Suporte ( Fraldas -> Cerveja) = 60%
Confiana (Fraldas-> Cerveja) = 75%
Problemas de Minerao de
Regras de Associao
A descoberta de regra de associao um processo
muito custoso.
Suporte >= minsup
Gerao de Regras;
Confiana X->Y > minconf
Transactions List of
Candidates
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
N 3 Milk, Diaper, Beer, Coke M
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
w
Apriori
O principio Apriori uma forma efetiva de
se eliminar alguns dos conjuntos de itens
sem contar seus valores de suporte
Principio Apriori Se um conjunto de
itens frequente ento todos os seus
subconjuntos tambm devem ser
frequentes.
Obs.: Itens frequentes so que observam
a lei de ser superior ao minsup.
Poda Por intens infrequentes
( Anti-Monotonica) Define-se
Definio
que a medida do suporte para um
determinado conjunto Y de itens nunca
excede o suporte de seus subconjuntos X.
Exemplificando o
Funcionamento Do
algoritmo Apriori
60%; -> 3
Gerao dos itens Candidatos
(Fora Bruta)
Gerao dos itens Candidatos
(Fuso de intes frequentes)
Gerao de Regras baseado em
confiana
Para uma regra gerada a partir de um mesmo
conjunto de item frequente Y temos que;
Sempre que uma regra for gerada a partir de um
subconjunto X de X, onde, o contador de suporte de
X maior ou igual ao do X, ento, a regra de
confiana de X nunca poder ser maior do que a
confiana de X.
Com isso se X for menor do que minconf ento as
subsequentes regras podem ser eliminadas;
X -> Y - X || X -> Y X onde X est contido em X;
( X (Y X )) (Y ) c( X Y X ) ( X Y X ) (Y )
c( X Y X )
(X ) (X ) ( X ) ( X )
Suponha o conjunto Y do itens frequentes
composto por ( Po,Cerveja,Fralda)
Suponha um subconjunto de Y denomiado X
composto por (Po e Cerveja);
Suponha um subconjunto de X denomiado X
composto por (Po);
Logo, X->Y-X = (Po,Cerveja)-> Fralda;
Assim X->Y-X = (Po)-> Fralda,Cerveja;
Temos, confiana X = Y/(Po,Cerveja);
Confiana de X = Y/(Po);
Ento temos que X > X ; 2/2 >= 2/4 ;
Se confiana de X maior e tem baixa confiana
logo X obrigatoriamente tambm ter confiana
baixa;
-I -N 100 -T 0 -C 0.5 -D 0.06 -U 1.0 -M 0.4 -S -1.0 -c -1
ABC =>{}
A =>BC
B =>AC C =>BA
Uma Introduo
ferramenta Weka
WEKA
Significa (Waikato Environment for
Knowledge Analysis ) criado pela
Universidade de Waikato;
Possui licena GPL;
uma coleo de algoritmos de
aprendizagem de mquina para resolver
problemas de minerao de dados.
http://www.cs.waikato.ac.nz/ml/weka/index.ht
ml
Os dados que foram utilizados
@RELATION compras
@attribute leite {sim, no}
@attribute ovos {sim, no}
@attribute caf {sim, no}
@attribute acar {sim, no}
@attribute fraldas {sim, no}
@attribute manteiga {sim, no}
@attribute farinha {sim, no}
@attribute cerveja {sim, no}
@data
sim, sim, sim, sim, sim, sim, no, no
sim, no, sim, no, no, no, sim, no
sim, sim, no, sim, no, no, no, no
no, no, sim, sim, no, no, no, no
no, no, no, no, sim, no, no, no
sim, sim, no, no, no, sim, no, no
sim, sim, sim, sim, no, no, no, no
no, sim, no, no, no, sim, sim, no
sim, sim, sim, sim, no, sim, no, no
no, no, sim, no, sim, no, no, sim
Scheme: weka.associations.Apriori -N 10 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1
Relation: compras
Instances: 10
Attributes: 8
leite
ovos
caf
acar
fraldas
manteiga
farinha
cerveja
Apriori
Minimum support: 0.55 (6 instances)
Minimum metric <lift>: 1.5
Number of cycles performed: 9
s( A, B) Nf 11
I ( A, B) .
s( A) s( B) f 1 f 1
I(A,B) : = 1, Se A e B forem independentes;
I(A,B) > 1, Se A e B forem relacionados positivamente
I(A,B) < 1, Se A e B forem relacionados negativamente.
Ex ch -> caf tem correlao negativa entre pessoas que
bebem ch e as que bebem caf;
FpGrowth com o
Exemplo do Livro
40%; -> 2