Você está na página 1de 7

UNIVERSIDADE FEDERAL DO PARAN

SETOR DE CINCIAS SOCIAIS APLICADAS


CURSO DE GESTO DA INFORMAO
SIN 137 MINERAO DE DADOS
Prof Dr: DENISE TSUNODA
ELIVELTON PONTES

28/08/2015

ATIVIDADE WEKA

1. Crie um arquivo arff da tabela abaixo:

A) Com o mtodo APRIORI, com os demais parmetros default, na ferramenta


Weka, descubra 15 regras.

R: 15 regras foram encontradas com os parmetros, suporte mnimo 0.35 e confiana


0.9, os resultados esto representadas a seguir:

1. KIWI=X 6 ==> SHAMPOO=N 6

conf:(1)

2. DETERGENTE=N 5 ==> MORANGO=N 5


3. BOLACHA=X 5 ==> KIWI=X 5

conf:(1)

conf:(1)

4. BOLACHA=X 5 ==> SHAMPOO=N 5

conf:(1)

5. BOLACHA=X SHAMPOO=N 5 ==> KIWI=X 5

conf:(1)

6. KIWI=X BOLACHA=X 5 ==> SHAMPOO=N 5

conf:(1)

7. BOLACHA=X 5 ==> KIWI=X SHAMPOO=N 5

conf:(1)

8. BOLACHA=N 4 ==> MORANGO=N 4


9. BOLACHA=N 4 ==> LARANJA=N 4

conf:(1)
conf:(1)

10. DETERGENTE=X 4 ==> PASTA_DE_DENTE=X 4

conf:(1)

11. LARANJA=N BOLACHA=N 4 ==> MORANGO=N 4

conf:(1)

12. MORANGO=N BOLACHA=N 4 ==> LARANJA=N 4

conf:(1)

13. BOLACHA=N 4 ==> MORANGO=N LARANJA=N 4

conf:(1)

14. MORANGO=N PASTA_DE_DENTE=X 4 ==> BANANA=X 4


15. MORANGO=N KIWI=X 4 ==> SHAMPOO=N 4

conf:(1)

conf:(1)

B) Altere a confiana para 0.6 e veja o que ocorre. Registre os resultados dos
experimentos.
R: Mudando o default da confiana para 0.6 foram encontradas 100% de confiana
em todas as regras testadas (1000), no obtendo diferena significativa com o
resultado dos parmetros default.

C) Altere a confiana para 0.3 e veja o que ocorre. Registre os resultados dos
experimentos.
R: Com a alterao na confiana default para 0.3 obtive a 100% de confiana dos
casos testados (1000), no obtendo diferena significativa com os parmetros default.

D) Compare os resultados obtidos no item b e c. Confiana 0,6 e 0,3.


R: Foram obtidos resultados semelhantes para os mesmos parmetros de confiana,
tando no item A quanto no item B com 100% de confiana nas regras geradas

2. Abra o arquivo Weather-nominal.arff e execute o algortimo Apriori.


A) Altere o parmetro numRules para 1000. Quantas regras foram
encontradas?
R: Alterando o parmetro numRules foram encontradas 336 regras.

B) Qual o mximo suporte para o qual voc encontrou regras?


R: Com os parmetros de numRules igual a 1000 foi encontrado o suporte mnimo de
at 0,32 ou 32% como mximo. A seguir as regras:
1. outlook=overcast 4 ==> play=yes 4

conf:(1)

2. temperature=cool 4 ==> humidity=normal 4

conf:(1)

3. humidity=normal windy=FALSE 4 ==> play=yes 4

conf:(1)

C) Altere o parmetro confidence (confiana) para encontrar regras com o maior


suporte.
R: Com um suporte mnimo de 0.46 com confiana de 0.1, temos as seguintes regras:
1. humidity=normal 7 ==> play=yes 6
2. windy=FALSE 8 ==> play=yes 6

conf:(0.86)
conf:(0.75)

3. play=yes 9 ==> humidity=normal 6


4. play=yes 9 ==> windy=FALSE 6

conf:(0.67)
conf:(0.67)

D) Altere o parmetro para MetricType para lift. Qual a regra com o maior lift?
O que isso significa ?
R: A regra com maior lift deu 14. O lift indica quanto mais frequente aparece B,
quando A ocorre.

E) Examine algumas regras e comente o que encontrou de relevante.


R: Todos os dias que houve umidade do ar normal e dias sem vento, ocorreu jogos.

3. Abra o arquivo iris.arff e execute o algoritmo Apriori.


A) Porque ele no est habilitado?
R: O arquivo iris.arff nao opera com atributos do tipo REAL, alm dos dados no
estarem discretizados.

B) Discretize ento os dados numricos em 5 grupos (bins). Quantas Regras


foram encontradas ? Analise alguma das regras. Explique o que ocorreu ?
R: Foram encontradas 96 regras, com 72 regras com 100% de confiana

C) Refaa a discretizao, agora considerando 3 grupos. Qual o resultado?


Compare os resultados do item anterior!
R: Realizando a discretizao os dados em 3 grupos, foi encontrado 179 regras. Pelo
fato de ter um nmero menor de grupo foi possvel registrar regras envolvendo as
dimenses das flores (o que no foi possvel na anterior)

4. Abra o arquivo obitos_domicilio.arff. Examine os dados. Voc tem ideia das


regras que sero geradas? Quais? Justifique ! Execute o algoritmo Apriori.

A) O que voc achou interessante (ou curioso) no resultado ? Porque isso


aconteceu ?
R: A maior taxa de bito est entre a faixa etaria adulta (com 61%), do sexo masculino
(com 80%), da raa branca (com 90%), estado civil casado (com 39%), com escolaridade
entre 4 a 7 anos (com 32%)e cometeram suicdio (com 51,5%).

B) Aumente o nmero de regras para 1000 e execute. Resolveu?


R: No houve mudana significativa.

C) Diminua a confiana mnima. Altere a mtrica para Lift e execute. Examine


as regras geradas.
R: Com um suporte de 0.46 com confiana de 0.1, apareceu as seguintes regras:

1. humidity=normal 7 ==> play=yes 6


2. windy=FALSE 8 ==> play=yes 6
3. play=yes 9 ==> humidity=normal 6
4. play=yes 9 ==> windy=FALSE 6

conf:(0.86)
conf:(0.75)
conf:(0.67)
conf:(0.67)

D) Remova a coluna racacor e execute. O que aconteceu ?


R: Removendo a coluna racacor as regras encontradas foram menores, usando os
mesmos parmetros j utilizados anteriormente. No total foram encontradas 194
regras. Porm continua prevalecendo os resultados descritos na questo A no
contando a racacor branca.

5. Carregue o arquivo Supermercado-Matriz.csv

A) Observe a estrutura dos dados desse arquivo. Verifique os conjuntos frequentes


(Itemsets).

B) Quantas regras existem com suporte igual a 10% e confiana igual a 90%
(default)?
R: Foram geradas 73 regras.

C) Altere o suporte e/ou confiana e observe as regras de associao geradas.


Comente os resultados.
R: Mudando o suporte mnimo para 30% e confiana 10%, foram encontradas 88
regras. As regras de maior confiana foram:
Alface=S 48 ==> Maca=N 34

conf:(0.71)

Alface=S 48 ==> Pepino=N 34


Alface=S 48 ==> Alho=N 34

conf:(0.71)
conf:(0.71)

Banana=N 50 ==> Laranja=N 35


Limao=S 43 ==> Pepino=N 30

conf:(0.7)
conf:(0.7)

D) Verificar diferentes nveis (90,85,80,70,60) para confiana, Lift, Leverage e


Conviction. Comente os resultados
R: Com os parmetros Confiana, Lift, Leverage e Conviction, encontrou-se 73 regras
com a confiana de 90% e suporte mnimo de 10%, obtendo 9 regras com 100% de
confiana.
Foi constatado que com o nvel de confiana mais baixo o nmero de regras tende
a aumentar, conforme a tabela a seguir:
Confiana
Confiana 85%
Confiana 80%
Confiana 70%
Confiana 60%

Regras
108
287
964
+1000

J as regras com o parmetro Lift somam mais de 1000 regras para todos os nveis
de confiana solicitado, diferente da confiana, a mtrica Lift, considera a frequncia que
o atributo consequente aparece quando o atributo antecessor est presente.

Para mtrica Conviction tambm somam mais de 1000 regras para todos os nveis
de confiana solicitados, neste caso considera-se a frequncia que o atributo X aparece
sem que o atributo Y esteja presente, considerando para este exemplo uma relao X
ento Y. Para o parmetro Leverage no foram encontradas regras.

6. Carregue o arquivo weather.nominal.arff. Execute o algoritmo Apriori sem


transformao de dados.

A) Quais foram os resultados encontrados?


R: Ao todo foram 336 regras encontradas com 100% de confiana.

B) Altere o parmetro car (class association rules para TRUE). Agora voc pode
escolher o consequentemente das regras geradas (classIndex o atributo
considerado no consequente da regra). Depois execute o algoritmo Apriori
novamente. Comente os resultados.
R: Mudando apenas o classIndex para -1 e com os outros parmetros default, foram
geradas 71 regras no total onde todas so 100% e o atributo play passa a direita. Do total,
foram encontradas 50 regras considerando a possibilidade de jogo e somente 21 para no
existncia de jogo. A seguir algumas regras geradas pelo atributo play:
1. outlook=overcast 4 ==> play=yes 4

conf:(1)

2. humidity=normal windy=FALSE 4 ==> play=yes 4

conf:(1)

3. outlook=sunny humidity=high 3 ==> play=no 3

conf:(1)

4. outlook=rainy windy=FALSE 3 ==> play=yes 3

conf:(1)

5. outlook=sunny humidity=normal 2 ==> play=yes 2

conf:(1)

7. Carregue o arquivo Censo.csv. Esse arquivo contm dados censitrios


apresentando a Faixa de Idade, Tipo de Emprego, Nvel Educacional, Estado Civil,
Relao Familiar, Raa, Sexo e a Faixa Salarial.

A) Utilizando os dados, encontre cinco associaes que envolvam, de alguma forma,


o atributo Salario ou Tipo de Emprego e que tenham o maior suporte.
Interprete-as e discuta como esse conhecimento poderia ser utilizado.
R: Ao todo so 5 regras que envolvem os atributos Salrio ou Tipo de emprego e que
possuem os suportes mais altos so:

Tipo_Emprego=Emp_Privada 679 ==> Raca=Branco 579 conf:(0.85)


Salario=Baixo 746 ==> Raca=Branco 623 conf:(0.84)
Tipo_Emprego=Emp_Privada Rel_Familia=Sem_Familia 286 ==> Salario=Baixo 261
conf:(0.91)
Rel_Familia=Sem_Familia 388 ==> Salario=Baixo 353

conf:(0.91)

Tipo_Emprego=Emp_Privada 679 ==> Salario=Baixo 529 conf:(0.78)


Raca=Branco 828 ==> Salario=Baixo 623 conf:(0.75)
Salario=Baixo 746 ==> Tipo_Emprego=Emp_Privada 529 conf:(0.71)

Foi encontrado o seguinte padro nas regras, representado na tabela a seguir:

REGRA A:
REGRA B:
REGRA C:
REGRA D:
REGRA E:

Empresa privada est relacionado a raa


branca
Salrio est ligado a raa branca
Emprego em empresa privada relaciona ao
salrio baixo
Ligada ao salrio baixo est a raa branca
Salrio baixo relaciona o emprego em
empresa privada.

Com essas regras o que pode ser verificado um padro de determinada populao e
assim criar padres que possam ser utilizados tanto na iniciativa pblica quanto na
privada. Por exemplo, para um governo, descobrir onde pode estar localizado a populao
mais carente e realizar polticas pblicas. Em empresas privadas pode haver interesse por
parte de produtores de produtos e/ou servios de quem oferece para o pblico alvo
predominante nesse padro, por exemplo, uma farmcia fazer desconto de remdios para
pessoas de empresas privadas x ou y.

Você também pode gostar