Escolar Documentos
Profissional Documentos
Cultura Documentos
Q1
1. Base de Dados - sistema utilizado para armazenar diversos dados em diversos
dados em diversos contextos. Normalmente acompanhado de um SGBD (Sistema de
Gestão de Base de Dados) de modo a melhor realizar as operações necessárias.
2. Data Warehouse - base de dados utilizada para armazenamento de dados
históricos, relativos a transações passadas, e não atuais, para análise posterior (BDs
OLAPs - OnLine Analytical Processing) de modo a ganhar maior noção sobre o
funcionamento de uma certa atividade, perceber os seus pontos fracos e fortes.
3. Dataset - conjunto de dados relativos a um certo cenário, muitas vezes sendo
utilizados para treinar um modelo de machine learning. Poderíamos por exemplo ter
um dataset relacionado com viação e ter o número de acidentes de viação, por
estrada e por dia.
Q2
Algumas das limitações do data mining podem passar pela qualidade dos dados, o
nosso conhecimento sobre o campo a tratar pode não ser o melhor e podemos ter de
tratar datasets extremamente volumosos.
Para resolver a qualidade do dados, são necessários escolhermos melhores fontes de
onde os recolhemos.
Para resolver a falta de conhecimento sobre o campo, é necessário estudá-lo melhor
/ aplicar um novo método de estudo.
Para lidar com datasets grandes, podemos utilizar uma abordagem distribuída de
modo a processá-lo mais rapidamente.
Q3
Existem algumas diferenças entre um data warehouse e um data mart,
nomeadamente:
Focado em apenas uma área (Educação, Focado em mais do que uma área
Finanças, etc.)
2
Contém dados generalizados Contém dados mais específicos
Q4
Poderão existir alguns problemas éticos no que toca a data mining, porque ao fim ao
cabo, todos os dados são originados por humanos, que podem não necessariamente
querer que os seus dados sejam usados por organizações, mas no entanto, por falta
de conhecimento ou de interesse aceitam condições que os expõem a cenários onde
isso acontece. Particularmente, esses dados podem incluir dados biométricos,
originários de desbloquear uma certa aplicação com a impressão digital ou até dados
de localização da pessoa.
Q5
A normalização de uma base de dados é o processo através do qual, são removidas
redundâncias, que poderiam vir a causar problemas de integridade na BD, aquando
de inserções / atualizações / remoções de registos.
Em sistemas OLTP é necessário que a BD se encontre normalizada, já que com o
grande número de transações a serem constantemente efetuadas, é fácil realizar
operações na BD que a possam colocar num estado não íntegro.
Em sistemas OLAP é também necessário que a BD como um todo se encontre
normalizada, caso contrário, quando for necessário analisar os dados que temos,
perdemos qualidade dos mesmos, o que pode levar a uma má tomada de decisões.
Q6
3
Q7
Faz sentido desnormalizar alguns dados, já que em sistemas OLAP, os dados não
precisam de estar normalizados para transações rápidos, logo, podemos-nos dar ao
luxo de desnormalizar algumas tabelas em prol de simplicidade.
Q8
1. https://datasetsearch.research.google.com/
2. https://www.kaggle.com/
3. https://www.statista.com/
Q9
Link:
https://de.statista.com/statistik/daten/studie/449211/umfrage/premier-league-rek
ordspieler-nach-einsatzzahl/
Conteúdo : Nomes de jogadores de futebol que jogaram na Premier League (1ª Liga
Inglesa de Futebol)
Propósito : Saber quantos jogos, cada jogador que jogou na Premier League, desde a
época de 1992 / 1993 até ao presente ano, efetuou.
Tamanho : 8.9Kb (ficheiro .xlsx)
4
Antiguidade : 1992 até ao presente.
5
Q10
a) Inicialmente, foram apenas criados dois grupos e obtido este resultado:
Em seguida, foi criada uma árvore com 7 ramos de modo a ser obtida uma
melhor classificação, como é demonstrado abaixo:
6
Q11
a)
b)
7
Não deve ser usada essa opção porque o modelo poderá apresentar muitos erros de
generalização durante os testes, seja por problemas de excesso de complexidade do
Modelo, que costuma causar overfitting ou por Poda inadequada.
e) Não é o modelo mais adequado para o problema apresentado visto que apresenta
um número muito baixo de ocorrências classificadas, por outro lado uma boa prática
seria adotar um ratio como 70% e para treino e os 30%.
f) Com base nas experiências acima chegou-se a conclusão que é preferível utilizar a
precisão “Use training set” visto que ele apresenta uma boa percentagem de
classificação e um número grande de ocorrências classificadas.
Q13
a) 80 % - > representam 614 Instâncias usadas para o treino.
20% -> representam 154 Instâncias usadas para o teste.
8
c) A média da percentagem de instâncias corretamente classificadas é de 70 %.
d) Uma vez que aumentamos o random seed de 5 para 10 alterou a média para
75 % das instâncias classificadas.
Q14
a) Aplicando o algoritmo ZeroR a percentagem será de
b)
9
Q15
a) A percentagem de acerto é de 27,3973%
10
Q16
a) Para este dataset a precisão do algoritmo ZeroR é muito baixa - está cifrada
nos 11.6049%.
11