Você está na página 1de 14

Tpicos Avanados em Banco de Dados

1 Lista Minerao de Dados

1. Carregue o dataset student-mat.arff


a) Quantos atributos e instncias dispe o dataset?
O dataset possui 16 atributos e 395 instncias.

b) Escolha e especifique pelo menos 5 atributos que possam ajudar a correlacionar as 3 notas
descritas no dataset (G1, G2, G3) com os atributos escolhidos.

Atributos escolhidos: Madu; Traveltime; Failure; Dalc; Walc


c) Perceba que os valores dos datasets apresentam diferentes escalas. importante normaliz-
los para que possam ser igualmente comparados em uma mesma escala. Para normaliz-los
siga o seguinte passo: Filter Choose -> weka.filters.unsupervised.attribute.normalize.

A normalizao dos dados o processo de redimensionamento de um ou mais atributos para


o intervalo de 0 a 1. Isso significa que o maior valor para cada atributo 1 e o menor valor 0.
A normalizao uma boa tcnica para usar quando voc no conhece a distribuio de seus
dados ou quando voc sabe que a distribuio no Gaussian.

d) Salve o dataset normalizado e anexe ao seu conjunto de respostas.

e) Abra a aba Cluster e escolha o algoritmo SimpleKMeans. Essa uma implementao do


algoritmo K-means.
f) Gere diversos clusters, variando o valor de K entre 2 e 10. Para cada valor de k, anote o
valor do Within cluster sum of squared errors. Faa um grfico com esses valores. Voc
pode usar o excel para plotar o grfico.

Valor do Erro
400,00

350,00

300,00

250,00

200,00

150,00

100,00

50,00

0,00
2 3 4 5 6 7 8 9 10 11 12 13 14 15
Valor do Erro
400,00

350,00

300,00

250,00

200,00

150,00

100,00

50,00

0,00
0 2 4 6 8 10 12 14 16

g) Para k=5, descreva os clusters encontrados baseado nos centrides. Que tipo de
conhecimento voc consegue extrair correlacionando os atributos? possvel estabelecer
regras (por exemplo, o cluster que apresenta alunos com melhores notas em matemtica so os
alunos que menos consomem lcool no fim de semana)?

Cluster 0: Jovens com idade mdia no dataset, so os que possuem uma relao menor com a
famlia, possuem mais tempo livre e saem mais, bebem mais durante a semana e nos finais de
semana, so os mais saudveis e possuem muitas faltas, as notas so na mdia.
Cluster 1: Jovens com idade muito acima da mdia, mes e pais estudaram um pouco abaixo da
mdia, estudam mais, possuem algumas reprovaes, so os que possuem pouco tempo livre, so os
que menos bebem nos dias da semana e nos finais de semana, notas abaixo da mdia.

Observao: Quem estuda mais possuem pouco tempo livre bebem menos

Cluster 2: Jovens com idade abaixo da mdia, o tempo de viagem at a escola quase curto, o
tempo de estudo, a relao com a famlia, o tempo livre e a sada com amigos mdio e so os mais
doentes ou com problemas de sade, as notas so acima da mdia.

Cluster 3: So os mais velhos, pais e mes estudaram menos, tempo de viagem at a escola longo,
menos tempo de estudo, reprovam mais, relao mdia com a famlia, bebem quase muito durante a
semana e nos finais de semana, as faltas so quase poucas, mas so os que possuem menor nota.
Observao:
Beber quase muito durante a semana e final + Tempo de viagem longo menos tempo de estudo +
Pais e mes estudando menos Menor nota

Cluster 4: So os mais novos, mes e pais estudaram mais, o tempo de viagem para a escola
curto, reprovam menos, relao com os pais bastante alta, saem menos, bebem quase pouco
durante a semana e finais de semana, so quase os mais saudveis, so os que possuem poucas
faltas e so os que tiram as maiores notas.

Observao:
Estudantes mais jovens, tendem a tirar notas mais altas.
Tempo de Viagem mais curto faz como que as notas sejam mais altas.
Estudantes com pais e mes que estudaram mais, possuem notas mais altas.
Quem bebe mais durante a semana e final de semana obtem notas mais baixas.
2. Repita o mesmo processo acima pro dataset student-por.arff e especifique suas
repostas.
a) Quantos atributos e instncias dispe o dataset?
O dataset possui 16 atributos e 649 instncias.

b) Escolha e especifique pelo menos 5 atributos que possam ajudar a correlacionar as 3 notas
descritas no dataset (G1, G2, G3) com os atributos escolhidos.
Os atributos escolhidos foram: Medu, Traveltime , Failures, Famrel, Goout.
c) Perceba que os valores dos datasets apresentam diferentes escalas. importante normaliz-
los para que possam ser igualmente comparados em uma mesma escala. Para normaliz-los
siga o seguinte passo: Filter Choose weka.filters.unsupervised.attribute.normalize.

d) Salve o dataset normalizado e anexe ao seu conjunto de respostas.

e) Abra a aba Cluster e escolha o algoritmo SimpleKMeans. Essa uma implementao do


algoritmo K-means.
f) Gere diversos clusters, variando o valor de K entre 2 e 10. Para cada valor de k, anote o
valor do Within cluster sum of squared errors. Faa um grfico com esses valores. Voc
pode usar o excel para plotar o grfico.

Valor
Valor do
do Erro
Erro
600,00
600,00

500,00
500,00

400,00
400,00

300,00
300,00

200,00
200,00

100,00
100,00

0,00
0,00
02 3 2 4 54 6 67 8 8 9 10
10 11 12
12 13 1414 1516
g) Para k=5, descreva os clusters encontrados baseado nos centrides. Que tipo de
conhecimento voc consegue extrair correlacionando os atributos? possvel estabelecer
regras (por exemplo, o cluster que apresenta alunos com melhores notas em matemtica so os
alunos que menos consomem lcool no fim de semana)?

Cluster 0: Jovens mais velhos, os pais no estudaram nem muito e nem pouco, possuem um tempo
de viagem alto at a escola, o tempo de estudo pouco, so os que mais reprovaram, o
relacionamento com a famlia est na mdia, possuem um tempo livre maior que os outros, saem
mais, bebem muito (quase todo dia) durante a semana e muito tambm durante os finais de semana,
a sade est um pouco acima da mdia, alm disso, eles so os que faltam mais e os que possuem a
menor mdia de notas.

Cluster 1: So os mais jovens, com os estudos dos pais e mes alta, possuem um tempo de viagem
baixo at a escola, o tempo de estudo um dos maiores, as reprovaes chegam a quase ser zero,
sendo a menor, alm de o tempo livre e a sada deles um pouco abaixo da mdia, a sada para
beber durante a semana e nos finais de semana baixo, so os mais saudveis e os que faltam
menos, eles so os que possuem uma mdia de notas quase alta, acima da mdia.

Cluster 2: So os jovens com idade mdia no dataset, os estudos dos pais e das mes so quase
alto, acima da mdia, o tempo de viagem relativamente baixo, quase o menor, so os que passam
mais tempo estudando, e so uns dos que possuem um nmero pequeno de reprovaes, a relao
com a famlia maior que a mdia, o tempo livre e a sada acima da mdia, so uns dos que quase
no bebem durante os dias da semana, mas eleva durante o final de semana, so os que possuem
mais complicaes de sade, as faltas esto quase na mdia e so os que tiram maior nota.

Cluster 3: So os jovens quase mais novos, os estudos dos pais e das mes so quase os menores e
o tempo de viagem quase o maior, o tempo de estudo est acima da mdia e as reprovaes
tambm, so os que possuem uma relao muito baixa com a famlia, so os que no tem muito
tempo livre e so os que saem menos, no bebem muito durante a semana e so os que bebem
menos durante o final de semana, a sade deles quase uma das menores, as faltas est um pouco
acima da mdia, as notas deles esto quase na mdia.
Cluster 4: So os jovens quase mais velhos, os estudos dos pais e das mes so os menores, o
tempo de viagem um pouco acima de mdia e o tempo de estudo um pouco abaixo da mdia, as
reprovaes esto um pouco acima da mdia, so os que possuem uma relao com os pais bastante
alta, possuem muito tempo livre, a sada deles est na mdia, so os que bebem menos durante a
semana e quase o menor durante os finais de semana, so quase os mais saudveis e as faltas so
quase as menores, mas so os que possuem quase a menor nota.

3. Voc verifica diferenas entre os perfis encontrados para o dataset student-mat.arff em


comparao ao student-por.arff?
Depois de uma anlise mais detalhada entre os clusters de math e port, eu consegui observar que
eles so bastante parecidos, mesmo que no estejam na ordem os cluster so bastante parecidos,
com quase as mesmas caractersticas. Abaixo eu separei por perfil, qual cluster se parece com qual:

Perfil 1:

Cluster 0 (Port): Jovens mais velhos, os pais no estudaram nem muito e nem pouco, possuem um
tempo de viagem alto at a escola, o tempo de estudo pouco, so os que mais reprovaram, o
relacionamento com a famlia est na mdia, possuem um tempo livre maior que os outros, saem
mais, bebem muito (quase todo dia) durante a semana e muito tambm durante os finais de semana,
a sade est um pouco acima da mdia, alm disso, eles so os que faltam mais e os que possuem a
menor mdia de notas.

Cluster 3 (Math): So os mais velhos, pais e mes estudaram menos, tempo de viagem at a escola
longo, menos tempo de estudo, reprovam mais, relao mdia com a famlia, bebem quase muito
durante a semana e nos finais de semana, as faltas so quase poucas, mas so os que possuem menor
nota.

Perfil 2:

Cluster 1 (Port): So os mais jovens, com os estudos dos pais e mes alta, possuem um tempo de
viagem baixo at a escola, o tempo de estudo um dos maiores, as reprovaes chegam a quase ser
zero, sendo a menor, alm de o tempo livre e a sada deles um pouco abaixo da mdia, a sada
para beber durante a semana e nos finais de semana baixo, so os mais saudveis e os que faltam
menos, eles so os que possuem uma mdia de notas quase alta, acima da mdia.

Cluster 4 (Math): So os mais novos, mes e pais estudaram mais, o tempo de viagem para a
escola curto, reprovam menos, relao com os pais bastante alta, saem menos, bebem quase
pouco durante a semana e finais de semana, so quase os mais saudveis, so os que possuem
poucas faltas e so os que tiram as maiores notas.

Perfil 3:

Cluster 2 (Port): So os jovens com idade mdia no dataset, os estudos dos pais e das mes so
quase alto, acima da mdia, o tempo de viagem relativamente baixo, quase o menor, so os que
passam mais tempo estudando, e so uns dos que possuem um nmero pequeno de reprovaes, a
relao com a famlia maior que a mdia, o tempo livre e a sada acima da mdia, so uns dos
que quase no bebem durante os dias da semana, mas eleva durante o final de semana, so os que
possuem mais complicaes de sade, as faltas esto quase na mdia e so os que tiram maior nota.
Cluster 2 (Math): Jovens com idade abaixo da mdia, o tempo de viagem at a escola quase
curto, o tempo de estudo, a relao com a famlia, o tempo livre e a sada com amigos mdio e so
os mais doentes ou com problemas de sade, as notas so acima da mdia.

Perfil 4:

Cluster 3 (Port): So os jovens quase mais novos, os estudos dos pais e das mes so quase os
menores e o tempo de viagem quase o maior, o tempo de estudo est acima da mdia e as
reprovaes tambm, so os que possuem uma relao muito baixa com a famlia, so os que no
tem muito tempo livre e so os que saem menos, no bebem muito durante a semana e so os que
bebem menos durante o final de semana, a sade deles quase uma das menores, as faltas est um
pouco acima da mdia, as notas deles esto quase na mdia.

Cluster 0 (Math): Jovens com idade mdia no dataset, so os que possuem uma relao menor com
a famlia, possuem mais tempo livre e saem mais, bebem mais durante a semana e nos finais de
semana, so os mais saudveis e possuem muitas faltas, as notas so na mdia.

Perfil 5:

Cluster 4 (Port): So os jovens quase mais velhos, os estudos dos pais e das mes so os menores,
o tempo de viagem um pouco acima de mdia e o tempo de estudo um pouco abaixo da mdia,
as reprovaes esto um pouco acima da mdia, so os que possuem uma relao com os pais
bastante alta, possuem muito tempo livre, a sada deles est na mdia, so os que bebem menos
durante a semana e quase o menor durante os finais de semana, so quase os mais saudveis e as
faltas so quase as menores, mas so os que possuem quase a menor nota.

Cluster 1 (Math): Jovens com idade muito acima da mdia, mes e pais estudaram um pouco
abaixo da mdia, estudam mais, possuem algumas reprovaes, so os que possuem pouco tempo
livre, so os que menos bebem nos dias da semana e nos finais de semana, notas abaixo da mdia.

Você também pode gostar