19-20 MEI-DC-Ficha 03

1
Q1
1. Base de Dados - sistema utilizado para armazenar diversos dados em diversos
dados em diversos contextos. Normalmente acompanhado de um SGBD (Sistema de
Gestão de Base de Dados) de modo a melhor realizar as operações necessárias.
2. Data Warehouse - base de dados utilizada para armazenamento de dados
históricos, relativos a transações passadas, e não atuais, para análise posterior (BDs
OLAPs - OnLine Analytical Processing) de modo a ganhar maior noção sobre o
funcionamento de uma certa atividade, perceber os seus pontos fracos e fortes.
3. Dataset - conjunto de dados relativos a um certo cenário, muitas vezes sendo
utilizados para treinar um modelo de machine learning. Poderíamos por exemplo ter
um dataset relacionado com viação e ter o número de acidentes de viação, por
estrada e por dia.
Q2
Algumas das limitações do data mining podem passar pela qualidade dos dados, o
nosso conhecimento sobre o campo a tratar pode não ser o melhor e podemos ter de
tratar datasets extremamente volumosos.
Para resolver a qualidade do dados, são necessários escolhermos melhores fontes de
onde os recolhemos.
Para resolver a falta de conhecimento sobre o campo, é necessário estudá-lo melhor
/ aplicar um novo método de estudo.
Para lidar com datasets grandes, podemos utilizar uma abordagem distribuída de
modo a processá-lo mais rapidamente.
Q3
Existem algumas diferenças entre um data warehouse e um data mart,
nomeadamente:
Data Mart Data Warehouse
Focado em apenas uma área (Educação, Focado em mais do que uma área
Finanças, etc.)
2
Contém dados generalizados Contém dados mais específicos
Integra informação de um conjunto de Integra informação de vários conjuntos

fontes de fontes (vários data marts por
exemplo)
Q4
Poderão existir alguns problemas éticos no que toca a data mining, porque ao fim ao
cabo, todos os dados são originados por humanos, que podem não necessariamente
querer que os seus dados sejam usados por organizações, mas no entanto, por falta
de conhecimento ou de interesse aceitam condições que os expõem a cenários onde
isso acontece. Particularmente, esses dados podem incluir dados biométricos,
originários de desbloquear uma certa aplicação com a impressão digital ou até dados
de localização da pessoa.
Q5
A normalização de uma base de dados é o processo através do qual, são removidas
redundâncias, que poderiam vir a causar problemas de integridade na BD, aquando
de inserções / atualizações / remoções de registos.
Em sistemas OLTP é necessário que a BD se encontre normalizada, já que com o
grande número de transações a serem constantemente efetuadas, é fácil realizar
operações na BD que a possam colocar num estado não íntegro.
Em sistemas OLAP é também necessário que a BD como um todo se encontre
normalizada, caso contrário, quando for necessário analisar os dados que temos,
perdemos qualidade dos mesmos, o que pode levar a uma má tomada de decisões.
Q6
3
Q7
Faz sentido desnormalizar alguns dados, já que em sistemas OLAP, os dados não
precisam de estar normalizados para transações rápidos, logo, podemos-nos dar ao
luxo de desnormalizar algumas tabelas em prol de simplicidade.
Q8
1. https://datasetsearch.research.google.com/
2. https://www.kaggle.com/
3. https://www.statista.com/
Q9
Link:
https://de.statista.com/statistik/daten/studie/449211/umfrage/premier-league-rek
ordspieler-nach-einsatzzahl/
Conteúdo : Nomes de jogadores de futebol que jogaram na Premier League (1ª Liga
Inglesa de Futebol)
Propósito : Saber quantos jogos, cada jogador que jogou na Premier League, desde a
época de 1992 / 1993 até ao presente ano, efetuou.
Tamanho : 8.9Kb (ficheiro .xlsx)
4
Antiguidade : 1992 até ao presente.
5
Q10
a) Inicialmente, foram apenas criados dois grupos e obtido este resultado:
Em seguida, foi criada uma árvore com 7 ramos de modo a ser obtida uma
melhor classificação, como é demonstrado abaixo:
b) Comparativamente ao algoritmo J48, o método de criação de árvores de

decisão não consegue competir com o mesmo. Tal é capaz de acontecer se for
selecionado e filtrado um grande número de grupos. Os resultados da
classificação do algoritmo J48 são os seguintes:
6
Q11
a)
Valor da classificação : 96.1728 %
b)
7
Não deve ser usada essa opção porque o modelo poderá apresentar muitos erros de
generalização durante os testes, seja por problemas de excesso de complexidade do
Modelo, que costuma causar overfitting ou por Poda inadequada.
c) Podemos observar que consoante o aumento das percentagens de divisão

“Percentagem Split” 10%->20%->40%->60% diminui o número correto de instâncias
classificadas.
d) Ao aplicar as seguintes percentagens podemos observar que o número de

instâncias corretamente classificadas diminuem drasticamente.
e) Não é o modelo mais adequado para o problema apresentado visto que apresenta
um número muito baixo de ocorrências classificadas, por outro lado uma boa prática
seria adotar um ratio como 70% e para treino e os 30%.
f) Com base nas experiências acima chegou-se a conclusão que é preferível utilizar a
precisão “Use training set” visto que ele apresenta uma boa percentagem de
classificação e um número grande de ocorrências classificadas.
Q13
a) 80 % - > representam 614 Instâncias usadas para o treino.
20% -> representam 154 Instâncias usadas para o teste.
b) Para o Random seed 1

Para o Random seed 2
8
c) A média da percentagem de instâncias corretamente classificadas é de 70 %.
d) Uma vez que aumentamos o random seed de 5 para 10 alterou a média para
75 % das instâncias classificadas.
Q14
a) Aplicando o algoritmo ZeroR a percentagem será de
b)
9
Q15
a) A percentagem de acerto é de 27,3973%
b) Passando para o algoritmo J48, a percentagem de acerto passa para 57.5342,

o que traduz um aumento de mais de 20% no acerto.
c) Utilizando o algoritmo de Naive Bayes com os parâmetros por defeito, a

percentagem de instâncias corretamente classificadas é de 49,3151%. Como
tal, podemos observar que este algoritmo não atingiu a mesma performance
do J48.
10
Q16
a) Para este dataset a precisão do algoritmo ZeroR é muito baixa - está cifrada
nos 11.6049%.
b) Passando para o algoritmo de IBk - algoritmo lazy de N vizinhos mais

próximos - observamos uma enorme melhoria, em que a percentagem de
acerto subiu para 95.8025%.
c) Executando, agora, o algoritmo de PART, vemos que, analogamente à alínea

anterior, a percentagem de instâncias corretamente classificadas teve um
valor elevado - um tudo nada inferior ao IBk - , mais concretamente
95,5556%.
11

19-20 MEI-DC-Ficha 03

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

19-20 MEI-DC-Ficha 03

Enviado por

Direitos autorais:

Formatos disponíveis

1

Data Mart Data Warehouse

Integra informação de um conjunto de Integra informação de vários conjuntos

b) Comparativamente ao algoritmo J48, o método de criação de árvores de

Valor da classificação : 96.1728 %

c) Podemos observar que consoante o aumento das percentagens de divisão

d) Ao aplicar as seguintes percentagens podemos observar que o número de

b) Para o Random seed 1

b) Passando para o algoritmo J48, a percentagem de acerto passa para 57.5342,

c) Utilizando o algoritmo de Naive Bayes com os parâmetros por defeito, a

b) Passando para o algoritmo de IBk - algoritmo lazy de N vizinhos mais

c) Executando, agora, o algoritmo de PART, vemos que, analogamente à alínea

Você também pode gostar