Escolar Documentos
Profissional Documentos
Cultura Documentos
ANÁLISE DE INFORMAÇÕES
Mineração de dados
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
SUMÁRIO
Introdução.................................................................................................3
1. Noções de Mineração de Dados: Conceituação e Características.....................4
2. Modelo de Referência Crisp-DM..................................................................6
3. Técnicas para Pré-processamento de Dados................................................9
4. Técnicas e Tarefas de Mineração de Dados................................................ 15
5. Classificação......................................................................................... 18
6. Regras de Associação............................................................................. 19
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 2 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Introdução
estudos dizem que o conteúdo digital dobra a cada dois anos no mundo.
Sendo assim, o que devemos fazer para conseguir obter conhecimento desse
volume imenso de dados? Afinal, isso não é tarefa trivial, pois o tratamento de
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 3 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
relativamente antigo, proposto lá pelo fim dos anos 80. Continua evoluindo até
hoje, principalmente pela sua estreita relação com o Big Data (que será detalhada-
A mineração de dados deve ser adotada para tornar mais eficiente o apoio à
neração agregam valor a decisões estratégicas, uma vez que permitem detectar
puderam ser detectados por um ser humano. Desse modo, as ferramentas de mi-
base nesse resultado, aquele que for usufruir dessa análise precisará se preocupar
pelo usuário.
• predição de eventos;
veja alguns exemplos em que ela pode ser utilizada nos mais diversos campos de
atuação:
cancelamentos.
da turma;
• serviços financeiros: ajudar bancos a obter uma melhor visão dos riscos de
• Governo: dispondo dos dados corretos, o setor público pode tomar decisões
rotatividade;
probabilidade.
mento personalizado;
que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de
Dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 6 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
O padrão CRISP foi concebido por volta de 1996 e não se restringe a uma ferra-
cíclica. Repare na figura abaixo que o fluxo entre as fases não possui sentido único.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 7 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
tos para a perspectiva do negócio. Aqui, o foco é entender qual o objetivo que se
deseja atingir com a mineração de dados. Essa fase é essencial para as seguintes.
2. Entendimento dos dados: nesta fase, podemos ter várias fontes de dados
que foi levantado na fase anterior, devemos identificar os dados relevantes para
sa ser realizada.
Não existe uma sequência de tarefas, nem um limite para que elas sejam exe-
aplicadas. Você pode aplicar uma ou mais técnicas, tudo depende do objetivo a ser
alcançado. Aqui são criados modelos (equações ou outros modelos lógicos) que se
5. Avaliação: seria a validação do que foi feito até o momento. Antes de fina-
lizarmos nosso projeto, é importante revisar o que foi feito até aqui para garantir
modelos são bons o suficiente. Veja novamente a figura e repare que a etapa de
rio. Um levantamento mal feito pode resultar em perda de tempo que poderia até
inviabilizar o projeto.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 8 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
delos, devem ser executados; e indicadores para auxiliar a análise dos resultados
maneira que o cliente possa utilizar. A fase de implantação pode ser simples como
As 6 fases do CRISP-DM
Entendimento do negócio Entender qual o objetivo a ser atingido
Entendimento dos dados Compreender e organizar os dados
Preparação dos dados Limpar os dados
Modelagem Aplicação das técnicas de mineração
Avaliação Verificar se o que foi feito até agora está certo
Implantação Hora de colocar o modelo em produção
de estruturas equivalentes, que oriente uma decisão. Além disso, quando aplicado
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 9 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
de comportamento.
to em Bases de Dados. A definição de KDD dada por FAYYAD et al. (1996) resume
ponsável pela análise de dados, cujo conhecimento sobre o domínio orientará a exe-
cução do processo. Por sua vez, a iteração deve-se ao fato de que, com frequência,
esse processo não é executado de forma sequencial, mas envolve repetidas sele-
extraídos.
padrões que coincidam com os objetivos estabelecidos. Isto faz da KDD um pro-
cesso cooperativo.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 10 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
verdade, todo o ciclo que o dado percorre até virar informação, conforme pode ser
vir e controlar o curso das atividades, e iterativo, por ser uma sequência finita de
operações em que o resultado de cada uma é dependente dos resultados das que
a precedem.
Seleção
casos ou observações) que farão parte da análise. Normalmente, essa escolha dos
O processo de seleção é bastante complexo, uma vez que os dados podem vir
de uma série de fontes e podem possuir os mais diversos formatos. É comum ocor-
rer a necessidade de se criar uma rotina específica para a carga dos dados, já que
nem sempre as ferramentas de carga existentes conseguem dar conta das peculia-
Pré-processamento e Limpeza
de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de
mineração. Nessa etapa deverão ser realizadas tarefas que eliminem dados redun-
discrepantes ao conjunto.
é dada a ele.
tra, porém, isso só deve ocorrer quando o dado outlier representar um erro de ob-
fraudulentas.
cados.
(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-
rio único.
Além disso, nessa fase, se necessário, é possível obter dados faltantes através
um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Outro
(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-
rio único.
Mineração de Dados
Interpretação e Avaliação
Essa é mais uma fase que deve ser feita em conjunto com um ou mais espe-
deve ser interpretado e avaliado para que o objetivo final seja alcançado.
Caso o resultado não seja satisfatório, o que não é raro, o processo pode retor-
nar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado, confor-
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 14 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Duas das ações mais comuns, caso o resultado não seja satisfatório são: modifi-
car o conjunto de dados inicial e/ou trocar o algoritmo de data mining (ou ao menos
Repare que tanto no modelo CRISP-DM quanto no KDD as fases iniciais são extre-
lho (visto que fases terão que ser refeitas), retrocesso (pois precisaremos voltar na
Antes de mais nada, devemos esclarecer: qual a diferença entre tarefa e técnica
de mineração?
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 15 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
buscar nos dados, que tipo de regularidades ou categoria de padrões temos inte-
resse em encontrar, ou que tipo de padrões poderiam nos surpreender. Estão rela-
cionadas às perguntas feitas na etapa de seleção dos dados, ou seja, nessa fase, a
Algumas tarefas de mineração serão mais detalhadas a seguir, mas antes de-
vemos esclarecer uma forma pela qual elas podem ser divididas: podem ser de
supervisionado são treinados usando exemplos rotulados, como uma entrada onde
sem que tenha recebido nenhum tipo de exemplo prévio. O aprendizado não super-
visionado é usado contra dados que não possuem rótulos históricos. O sistema não
sabe a “resposta certa”. O algoritmo deve descobrir o que está sendo mostrado.
não supervisionado funciona bem em dados transacionais. Por exemplo: ele pode
identificar segmentos de clientes com atributos semelhantes que podem ser trata-
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 16 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
nho as relações, padrões, categorias etc. dos dados que são apresentados e emite
tam como descobrir os padrões que nos interessam. O próximo passo agora é en-
tender como saber que técnica escolher, dada uma determinada tarefa. Como já foi
• Redes Neurais: foram criadas com base no estudo do cérebro humano. Assim
até que a rede consiga aprender como resolver o problema, melhorando, des-
5. CLASSIFICAÇÃO
Uma das tarefas mais comuns, a Classificação, visa identificar a qual classe um
tros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a
e Perfil Gerencial.
novo colaborador se encaixa. A tarefa de classificação pode ser usada, por exem-
plo, para:
• determinar quando uma transação de cartão de crédito pode ser uma fraude;
aluno;
6. REGRAS DE ASSOCIAÇÃO
registros e uma coleção de itens, cada um deles identificados com alguns números
sas através de regras, por exemplo: 80% dos registros que contém os itens A e B
regras de associação.
Seu estudo tem como objetivo buscar correlação entre atributos, ou seja, en-
lise podemos descobrir relações úteis que muitas vezes não são visíveis em uma
dos por Regras de Associação que mostram itens que são mais frequentes nesse
banco de dados.
caso de uma pessoa que vai a uma livraria para comprar um livro e, além do livro,
ele pega um chocolate no caixa. Isso não poderia ser interpretado como uma regra
Por isso infere-se que a Análise Associativa pode ser útil para uma empresa que
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 19 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
agrupamento (ou cluster) é uma coleção de registros similares entre si, porém,
diferentes dos outros registros nos demais agrupamentos. Essa tarefa difere da
(aprendizado não supervisionado). Além disso, ela não tem a pretensão de classi-
atributos.
da com outras tarefas, além de serem usadas na fase de preparação dos dados.
8. DETECÇÃO DE ANOMALIAS
Desvios em dados são valores não condizentes com o padrão dos outros que es-
aos outros, sendo tratado, assim, como uma exceção. Porém, para algumas aplica-
ções, essas exceções são bastante interessantes. Por exemplo: podemos citar uma
empresa de cartões de crédito que deseja descobrir fraudes no uso dos seus car-
tões por uso dos seus clientes. Valores discrepantes podem dar uma boa dica para
identificar essas infrações. As técnicas utilizadas para isso podem ser, por exemplo,
9. MODELAGEM PREDITIVA
teceu para fornecer uma melhor avaliação sobre o que vai acontecer no futuro. O
treinar) um modelo que possa ser usado para prever valores para dados diferentes
ou novos.
Cada vez mais organizações estão se voltando para a análise preditiva, visando
competitiva.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 21 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
• Com o software interativo e fácil de usar se tornando cada vez mais predo-
• identificar tendências;
• entender os clientes;
• prever o comportamento.
Para adotar a modelagem preditiva, antes de mais nada, é preciso saber qual
ser obtidos os dados que irão subsidiar a solução desse problema. Deve-se levar
em conta que a preparação dos dados deve ser bem executada, o que leva tempo.
Além disso, uma preparação mal elaborada, acarretará em perda de tempo e retra-
soas que entendam do problema a ser resolvido, pessoas que saibam preparar os
derem com o que você ouve e assiste e sugerir novas opções de acordo com
o seu gosto.
transações.
me os modelos são expostos a novos dados, eles são capazes de se adaptar de for-
• saber o que os clientes dizem sobre uma empresa nas redes sociais (Twitter,
por exemplo).
que tornaram a mineração de dados mais popular do que nunca. Coisas como o
nal que está mais barato e mais poderoso, e o armazenamento de dados de forma
acessível.
Tudo isso significa que é possível produzir, de forma rápida e automática, mode-
los que permitam analisar dados maiores e mais complexos e fornecer resultados
mais rápidos e mais precisos – mesmo em uma escala muito grande. O resultado?
Previsões de alto valor que podem levar a melhores decisões e ações inteligentes
bases de dados. As bases de dados são estruturadas. Mas lembra quando falamos
de dados armazenados em formato não estruturado pode ser considerada uma ati-
pelo fato dos dados possuírem a característica da não estruturação. Logo, são ne-
• coleta: etapa inicial e tem como objetivo formar uma base de dados textual.
de um livro.
de padrões e comportamentos.
• análise: é a última etapa e deve ser executada por pessoas que, normalmen-
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 25 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
seriam:
ficas, auxiliando usuários a encontrar detalhes, sem que ele precise ler todo
e semântico.
• Descoberta por Associação entre Passagens: tem por objetivo encontrar au-
em textos diferentes.
lizando técnicas que permitem extrair os termos mais frequentes dos textos.
elementos) nas classes. Essa técnica pode ser utilizada para estruturar e
mentos textuais e uma categoria associada a esta classe, esse tipo de des-
• Uma das diferenças é que os valores para os atributos são partes do texto e
ções na forma.
sentações.
• Então, na verdade, não são os textos que são combinados, mas, sim, seus
• Se for possível verificar o que há nos documentos que falta no estado mental
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 28 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 29 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
RESUMO
–– entendimento do negócio;
–– modelagem;
–– avaliação;
–– implantação;
• Etapas KDD:
sionado).
aprendem a partir dos dados que recebem, sem serem programados para
–– Coleta: etapa inicial e tem como objetivo formar uma base de dados textual;
massa textual;
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 31 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
QUESTÕES DE CONCURSO
mo intervalo de tempo.
dados.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-
d) É um grande banco de dados voltado para dar suporte necessário nas decisões
partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade,
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 32 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências
plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas
rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-
ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-
mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a
organização.
seguem.
nica conhecida como Data Warehousing, uma vez que a mineração de dados deve
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 33 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Data Mining.
te-se de uma série de valores existentes obtidos de dados históricos bem como de
suposições controladas a respeito das condições futuras, para prever outros valores
de Data Mining.
padrões existentes nesses dados. Normalmente, tais informações não são obtidas
plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-
me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas
expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa
a) Data Mart
b) Data Mining
c) Data Warehouse
d) Business Intelligence
e) OLAP
opção correta.
de dados vindos de uma base transacional para um data warehouse (DW). No pro-
cesso de extração, que é o mais demorado dos três, ocorre a limpeza dos dados, a
o nível do detalhe, por exemplo: município > estado) e roll-up (navegam entre as
hierarquias aumentando o nível do detalhe, por exemplo: estado > município) são
As bases de dados criadas para atender ao data warehouse (DW) são do modelo
altamente normalizadas.
Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-
dados temporário, preparatório para a carga no DW, poderá ser criado na fase de
Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-
porte a decisão.
Um banco de dados pode conter objetos de dados que não sigam o padrão dos
são tratados como exceção, para que não induzirem a erros na mineração.
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos
riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada
a um itemset.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 36 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
e ETL.
de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-
subsecutivos.
Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 37 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
decisão.
permite a descoberta de dados por faixa de valores, por meio do exame de alguns
ETL.
nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 38 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.
O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-
visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida
neração de dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 39 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de
reconhecimento de padrões.
sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados
de um data warehouse.
1. Criptografia assíncrona
2. Inteligência artificial
3. Machine learning
4. Estatística
5. Algoritmos genéticos
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 40 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
coletados em data warehouses e a análise de dados pode ser realizada por meio
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 41 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
GABARITO
1. e 26. C
2. a 27. E
3. d 28. d
4. E 29. e
5. E
6. C
7. E
8. b
9. C
10. d
11. C
12. E
13. C
14. c
15. E
16. C
17. E
18. C
19. C
20. c
21. C
22. E
23. C
24. C
25. C
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 42 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
GABARITO COMENTADO
mo intervalo de tempo.
dados.
Letra e.
Uma simplificação do conceito de mineração de dados, mas, ainda assim, não deixa
de estar correta.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-
d) É um grande banco de dados voltado para dar suporte necessário nas decisões
partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade,
Letra a.
rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências
plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas
rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-
ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-
mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a
organização.
Letra d.
Data Mining.
seguem.
nica conhecida como Data Warehousing, uma vez que a mineração de dados deve
Errado.
Data Mining.
Errado.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 45 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
te-se de uma série de valores existentes obtidos de dados históricos bem como de
suposições controladas a respeito das condições futuras, para prever outros valores
Certo.
de Data Mining.
Errado.
O padrão CRISP-DM foi criado por um consórcio que queria desenvolver um modelo
padrões existentes nesses dados. Normalmente, tais informações não são obtidas
plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-
me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 46 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa
a) Data Mart
b) Data Mining
c) Data Warehouse
d) Business Intelligence
e) OLAP
Letra b.
Certo.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 47 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
opção correta.
carga de dados vindos de uma base transacional para um data warehouse (DW). No
processo de extração, que é o mais demorado dos três, ocorre a limpeza dos dados,
nuindo o nível do detalhe, por exemplo: município > estado) e roll-up (navegam
entre as hierarquias aumentando o nível do detalhe, por exemplo: estado > muni-
de OLAP.
c) As bases de dados criadas para atender ao data warehouse (DW) são do modelo
altamente normalizadas.
e) Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-
dados temporário, preparatório para a carga no DW, poderá ser criado na fase de
Letra d.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 48 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-
Certo.
Árvore de decisão é uma das técnicas que podem ser usadas por tarefas de classi-
ficação.
porte a decisão.
Um banco de dados pode conter objetos de dados que não sigam o padrão dos
são tratados como exceção, para que não induzirem a erros na mineração.
Errado.
Para tais casos existe a etapa de preparação dos dados do modelo CRISP-DM. Os
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos
Certo.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 49 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada
a um itemset.
Letra c.
texto.
15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL.
Errado.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 50 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-
Certo.
subsecutivos.
Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-
Errado.
decisão.
permite a descoberta de dados por faixa de valores, por meio do exame de alguns
Certo.
19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL.
nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-
Certo.
Letra c.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 52 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Certo.
no histórico.
drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.
Errado.
não puderam ser captados anteriormente por outros tipos de análise ou por veri-
ficações manuais. Além do mais, as consultas realizadas pelos algoritmos não são
O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-
visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida
Certo.
Certo.
São as seis etapas do modelo CRISP-DM. A última etapa listada também pode ser
chamada de implantação.
neração de dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 54 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Certo.
Simplificando o exposto, são dados discrepantes, que podem representar uma ten-
dência, um dado verdadeiro, um erro, ou até uma fraude. Então, deve-se ter muito
sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de
reconhecimento de padrões.
Certo.
sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados
de um data warehouse.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 55 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
Errado.
warehouse.
1. Criptografia assíncrona
2. Inteligência artificial
3. Machine learning
4. Estatística
5. Algoritmos genéticos
Letra d.
Repare que todos os termos listados foram abordados por nós em algum momento
durante este capítulo, com exceção do item criptografia assíncrona. Logo, a alter-
coletados em data warehouses e a análise de dados pode ser realizada por meio
Errado.
www.grancursosonline.com.br 57 de 57