Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula 03 DATA MINING
Aula 03 DATA MINING
1
____________________________________
Data Mining
Questões Comentadas
1- (CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da
Informação - Ciência de Dados) Julgue o item a seguir, relativos a conceitos de
modelagem dimensional.
Em um processo de modelagem dimensional, a operação de merge/pruge agrega
informações das dimensões para diminuir a tabela de fatos.
Resolução:
A operação merge/purge é um processo que envolve a agregação de vários conjuntos de
dados, seguida da eliminação de duplicados. Contudo, esse processo é realizado no processo
de ETL, isto é, antes de os dados serem carregados para o ambiente multidimensional.
Portanto, a agregação não ocorre nas informações presentes nas tabelas de fatos ou de
dimensões, mas sim antes de os dados serem carregados para o ambiente multidimensional.
Gabarito: Errado.
2
____________________________________
3
____________________________________
4
____________________________________
5
____________________________________
6
____________________________________
7
____________________________________
Resolução:
Os outliers são dados que não apresentam o mesmo comportamento padrão da maioria. Ex.:
identificação de pessoa com renda muito superior aos perfis de renda em determinada
organização.
Gabarito: Certo.
8
____________________________________
21- (CESPE - 2018 – EBSERH) Julgue o item que se segue, a respeito de arquitetura e
tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de
conhecimento indutivo, é um dos objetivos de data mining.
Resolução:
Assertiva de acordo com o conceito de data mining. A mineração de dados (data mining)
refere-se à mineração ou descoberta de novas informações em termos de padrões ou
regras com base em grandes quantidades de dados.
Gabarito: Certo.
9
____________________________________
22- (CESPE - 2018 - Polícia Federal - Agente de Polícia Federal) Julgue o item que
segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.
Situação hipotética: Na ação de obtenção de informações por meio de aprendizado de
máquina, verificou-se que o processo que estava sendo realizado consistia em examinar as
características de determinado objeto e atribuir-lhe uma ou mais classes; verificou-se
também que os algoritmos utilizados eram embasados em algoritmos de aprendizagem
supervisionados.
Assertiva: Nessa situação, a ação em realização está relacionada ao processo de
classificação.
Resolução:
A aprendizagem supervisionada ou indução supervisionada está relacionada à
classificação, pois neste processo, as classes são definidas de forma prévia, antes de ser
realizada a análise dos dados.
Gabarito: Certo.
10
____________________________________
Resolução:
As árvores de decisão classificam os dados em um número finito de classes com base
nos valores das variáveis de entrada. As árvores de decisão são essencialmente uma
hierarquia de declarações se-então e, portanto, são significativamente mais rápidas do que
as redes neurais. Elas são mais apropriadas para dados categorizados e intervalos de dados.
Portanto, incorporar variáveis contínuas em uma estrutura de árvore de decisão requer
discretização; ou seja, converter variáveis numéricas de valor contínuo em intervalos e
categorias.
Estratificar significa separar em níveis. Logo, a árvore de decisão auxilia nesse processo,
separando as classes com base nos valores de entrada.
Gabarito: Letra C.
11
____________________________________
27- (CESPE - 2018 - Polícia Federal - Agente de Polícia Federal) Julgue o item que
segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões
válidos, novos, potencialmente úteis e, ao final, compreensíveis.
Resolução:
A mineração de dados (data mining) refere-se à mineração ou descoberta de novas
informações em termos de padrões ou regras com base em grandes quantidades de
dados. Dito de outro modo, o termo mineração de dados foi originalmente usado para
descrever o processo pelo qual os padrões anteriormente desconhecidos em dados são
descobertos.
Tecnicamente falando, a mineração de dados é um processo que utiliza técnicas de
estatística, matemática e inteligência artificial para extrair e identificar
informações úteis e subsequentes conhecimentos (ou padrões) em grandes conjuntos de
dados.
Em outro conceito, a mineração de dados é entendida como o processo não trivial de
identificar padrões válidos, novos, potencialmente úteis e, em última
instância, compreensíveis em dados armazenados em bancos de dados estruturados.
Gabarito: Certo.
28- (CESPE - 2018 - IPHAN - Analista I - Área 7) Julgue o item que se segue, a respeito
de tecnologias de sistemas de informação.
Na busca de padrões no data mining, é comum a utilização do aprendizado não
supervisionado, em que um agente externo apresenta ao algoritmo alguns conjuntos de
padrões de entrada e seus correspondentes padrões de saída, comparando-se a resposta
fornecida pelo algoritmo com a resposta esperada.
Resolução:
A questão descreve a aprendizagem supervisionada.
A classificação é o processo de aprender um modelo que descreve diferentes classes
de dados. As classes são predefinidas e, portanto, esse tipo de atividade é também
chamado de aprendizado supervisionado.
12
____________________________________
13
____________________________________
14
____________________________________
Resolução:
É importante destacar que a mineração de dados pode ser utilizada junto com um data
warehouse para ajudar com certos tipos de decisões. Porém, não está restrita a um DW,
podendo ser aplicada também a bancos de dados operacionais com transações individuais.
Alguns recursos de mineração são fornecidos por SGBDs relacionais, mas de forma
limitada.
Gabarito: Errado.
15
____________________________________
16
____________________________________
17
____________________________________
38- (CESPE - 2016 - TRT - 8ª Região (PA e AP) - Analista Judiciário - Tecnologia
da Informação) Acerca de data mining, assinale a opção correta.
a) A fase de preparação para implementação de um projeto de data mining consiste, entre
outras tarefas, em coletar os dados que serão garimpados, que devem estar exclusivamente
em um data warehouse interno da empresa.
b) As redes neurais são um recurso matemático/computacional usado na aplicação de
técnicas estatísticas nos processos de data mining e consistem em utilizar uma massa de
dados para criar e organizar regras de classificação e decisão em formato de diagrama de
árvore, que vão classificar seu comportamento ou estimar resultados futuros.
c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a
análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes
conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas
características analisadas.
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão
de um conjunto de informações, analisando-se seus valores ao longo de determinado
período. Nesse caso, para se obter uma previsão mais precisa, devem ser descartadas
eventuais sazonalidades no conjunto de informações.
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados
existentes no data warehouse e realizar inferências, buscando reconhecer correlações não
explícitas nos dados do data warehouse.
Resolução:
Vamos analisar as assertivas:
a) Incorreto: a fase de preparação de dados consiste em coletar os dados identificados
e prepará-los para análise. É a etapa que consome mais tempo. No entanto, os dados são
coletados de múltiplas fontes e não somente de um DW interno.
b) Incorreto: item refere-se a árvores de decisão e não a redes neurais. As redes
neurais envolvem o desenvolvimento de estruturas matemáticas (um tanto parecidas com
as redes neurais biológicas no cérebro humano) que têm a capacidade de aprender com
experiências passadas apresentadas sob a forma de conjuntos de dados bem estruturados.
As árvores de decisão classificam os dados em um número finito de classes com base nos
valores das variáveis de entrada. As árvores de decisão são essencialmente uma hierarquia
de declarações se-então.
c) Correto: gabarito da questão. Data mining é o processo que usa técnicas estatísticas,
matemáticas e de inteligência artificial para extrair e identificar informações úteis e
padrões. A análise de clusters identifica agrupamentos naturais de coisas baseada em
suas características similares.
d) Incorreto: a análise temporal deve considerar a sazonalidade, pois podem ser
identificados comportamentos que somente ocorrem em determinados períodos.
e) Incorreto: Data mining e OLAP são diferentes. O OLAP é uma abordagem para
responder rapidamente questões ad hoc através da execução de consultas analíticas
18
____________________________________
19
____________________________________
20
____________________________________
21
____________________________________
22
____________________________________
23
____________________________________
24
____________________________________
Resolução:
Os algoritmos genéticos podem ser usados na mineração de dados tanto para realizar
a análise de clusters quanto para a classificação.
Os Algoritmos genéticos são implementados como uma simulação de computador em
que uma população de representações abstratas de solução é selecionada em busca
de soluções melhores. A evolução geralmente se inicia a partir de um conjunto de soluções
criado aleatoriamente e é realizada por meio de gerações. A cada geração, a adaptação de
cada solução na população é avaliada, alguns indivíduos são selecionados para a próxima
geração, e recombinados ou mutados para formar uma nova população. A nova população
então é utilizada como entrada para a próxima iteração do algoritmo.
Gabarito: Certo.
55- (CESPE - 2014 - TJ-SE - Analista Judiciário - Análise de Sistemas) Com relação
a sistemas de suporte à decisão, julgue os seguintes itens.
DataMining pode ser considerado uma etapa no processo de descoberta de conhecimento
em base de dados, consistindo em análise de conjuntos de dados cujo objetivo é descobrir
padrões úteis para tomada de decisão.
Resolução:
A descoberta de conhecimento nos bancos de dados (KDD) abrange mais do que a
mineração de dados. O processo de descoberta do conhecimento compreende seis fases: (1)
seleção de dados; (2) limpeza de dados; (3) enriquecimento; (4) transformação ou codificação
de dados; (5) mineração de dados; e (6) relatório e exibição de informação descoberta.
A mineração de dados (data mining) refere-se à mineração ou descoberta de novas
informações em termos de padrões ou regras com base em grandes quantidades de
dados.
Gabarito: Certo.
25
____________________________________
26
____________________________________
27
____________________________________
62- (CESPE - 2014 - TJ-SE - Analista Judiciário - Análise de Sistemas) Com relação
a sistemas de suporte à decisão, julgue os seguintes itens.
Assim como o DataMining, os DataMarts são voltados para a obtenção de informações
estratégicas de maneira automática, ou seja, com o mínimo de intervenção humana a partir
da análise de dados oriundos de DataWarehouses.
Resolução:
Os DataMarts são repositórios de dados departamentais ou setoriais e não ferramentas
para obtenção de informações. O DataMining pode ser usado para análise de dados tanto
em DataWarehouses quanto em DataMarts, bem com em outros bancos de dados.
Gabarito: Errado.
28
____________________________________
d) Incorreto: o data mining pode ser utilizado para descobrir padrões em grandes
quantidades de dados.
e) Incorreto: é possível identificar vários padrões em cada banco de dados.
Gabarito: Letra C.
29
____________________________________
30
____________________________________
31
____________________________________
Contudo, muitas vezes não há distinção entre os termos técnicas, tarefas e algoritmos, sendo
utilizado qualquer desses termos de forma indistinta. Foi isso que houve na questão, ao
colocar regras de associação no mesmo nível de árvores de decisão.
Gabarito: Certo.
32
____________________________________
73- (CESPE - 2012 - TJ-AC - Analista Judiciário - Análise de Sistemas) No que diz
respeito a sistemas de suporte a decisão, julgue os itens subsequentes.
O data mining possibilita analisar dados para obtenção de resultados estatísticos que
poderão gerar novas oportunidades ao negócio.
Resolução:
A mineração de dados é um processo que utiliza técnicas de estatística, matemática
e inteligência artificial para extrair e identificar informações úteis e subsequentes
conhecimentos (ou padrões) em grandes conjuntos de dados.
A mineração pode ser utilizada em vários ramos. A mineração de dados oferece às
organizações um ambiente indispensável para melhorar a decisão de forma a explorar
novas oportunidades pela transformação dos dados em uma arma estratégica.
Gabarito: Certo.
33
____________________________________
34
____________________________________
35
____________________________________
79- (CESPE - 2008 - SERPRO - Analista - Suporte Técnico) Julgue os itens que se
seguem, acerca de data mining e data warehouse.
A data mining apoia a descoberta de regras e padrões em grandes quantidades de dados.
Em data mining, um possível foco é a descoberta de regras de associação. Para que uma
associação seja de interesse, é necessário avaliar o seu suporte, que se refere à frequência
com a qual a regra ocorre no banco de dados.
Resolução:
As regras de associação são uma técnica popular para descobrir relacionamentos
interessantes entre variáveis em grandes bancos de dados. Para que uma regra de
associação seja de interesse de um analista de dados, ela deve obedecer a alguma medida de
interesse.
Duas medidas comuns são o suporte e a confiança.
❖ Suporte ou prevalência: frequência que um conjunto de itens específico
ocorre no banco de dados, ou seja, o percentual de transações que contém todos
os itens em um dado conjunto. Ex.: 30% das compras realizadas em um
supermercado contém fraldas e cervejas.
❖ Confiança ou força: probabilidade de que exista relação entre itens. Ex.: 70%
dos clientes que compram fraldas também compram cerveja.
Gabarito: Certo.
36
____________________________________
Lista de Questões
1- (CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da
Informação - Ciência de Dados) Julgue o item a seguir, relativos a conceitos de
modelagem dimensional.
Em um processo de modelagem dimensional, a operação de merge/pruge agrega
informações das dimensões para diminuir a tabela de fatos.
37
____________________________________
38
____________________________________
39
____________________________________
21- (CESPE - 2018 – EBSERH) Julgue o item que se segue, a respeito de arquitetura e
tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de
conhecimento indutivo, é um dos objetivos de data mining.
22- (CESPE - 2018 - Polícia Federal - Agente de Polícia Federal) Julgue o item que
segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.
Situação hipotética: Na ação de obtenção de informações por meio de aprendizado de
máquina, verificou-se que o processo que estava sendo realizado consistia em examinar as
características de determinado objeto e atribuir-lhe uma ou mais classes; verificou-se
também que os algoritmos utilizados eram embasados em algoritmos de aprendizagem
supervisionados.
Assertiva: Nessa situação, a ação em realização está relacionada ao processo de
classificação.
40
____________________________________
27- (CESPE - 2018 - Polícia Federal - Agente de Polícia Federal) Julgue o item que
segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões
válidos, novos, potencialmente úteis e, ao final, compreensíveis.
28- (CESPE - 2018 - IPHAN - Analista I - Área 7) Julgue o item que se segue, a respeito
de tecnologias de sistemas de informação.
Na busca de padrões no data mining, é comum a utilização do aprendizado não
supervisionado, em que um agente externo apresenta ao algoritmo alguns conjuntos de
padrões de entrada e seus correspondentes padrões de saída, comparando-se a resposta
fornecida pelo algoritmo com a resposta esperada.
41
____________________________________
42
____________________________________
43
____________________________________
38- (CESPE - 2016 - TRT - 8ª Região (PA e AP) - Analista Judiciário - Tecnologia
da Informação) Acerca de data mining, assinale a opção correta.
a) A fase de preparação para implementação de um projeto de data mining consiste, entre
outras tarefas, em coletar os dados que serão garimpados, que devem estar exclusivamente
em um data warehouse interno da empresa.
b) As redes neurais são um recurso matemático/computacional usado na aplicação de
técnicas estatísticas nos processos de data mining e consistem em utilizar uma massa de
dados para criar e organizar regras de classificação e decisão em formato de diagrama de
árvore, que vão classificar seu comportamento ou estimar resultados futuros.
c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a
análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes
conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas
características analisadas.
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão
de um conjunto de informações, analisando-se seus valores ao longo de determinado
período. Nesse caso, para se obter uma previsão mais precisa, devem ser descartadas
eventuais sazonalidades no conjunto de informações.
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados
existentes no data warehouse e realizar inferências, buscando reconhecer correlações não
explícitas nos dados do data warehouse.
44
____________________________________
45
____________________________________
46
____________________________________
55- (CESPE - 2014 - TJ-SE - Analista Judiciário - Análise de Sistemas) Com relação
a sistemas de suporte à decisão, julgue os seguintes itens.
DataMining pode ser considerado uma etapa no processo de descoberta de conhecimento
em base de dados, consistindo em análise de conjuntos de dados cujo objetivo é descobrir
padrões úteis para tomada de decisão.
47
____________________________________
62- (CESPE - 2014 - TJ-SE - Analista Judiciário - Análise de Sistemas) Com relação
a sistemas de suporte à decisão, julgue os seguintes itens.
Assim como o DataMining, os DataMarts são voltados para a obtenção de informações
estratégicas de maneira automática, ou seja, com o mínimo de intervenção humana a partir
da análise de dados oriundos de DataWarehouses.
48
____________________________________
49
____________________________________
73- (CESPE - 2012 - TJ-AC - Analista Judiciário - Análise de Sistemas) No que diz
respeito a sistemas de suporte a decisão, julgue os itens subsequentes.
O data mining possibilita analisar dados para obtenção de resultados estatísticos que
poderão gerar novas oportunidades ao negócio.
50
____________________________________
79- (CESPE - 2008 - SERPRO - Analista - Suporte Técnico) Julgue os itens que se
seguem, acerca de data mining e data warehouse.
A data mining apoia a descoberta de regras e padrões em grandes quantidades de dados.
Em data mining, um possível foco é a descoberta de regras de associação. Para que uma
associação seja de interesse, é necessário avaliar o seu suporte, que se refere à frequência
com a qual a regra ocorre no banco de dados.
51
____________________________________
52
____________________________________
Gabarito
1- Errado 17- Errado 33- Errado 49- Errado 65- Errado
2- Certo 18- Letra C 34- Letra E 50- Certo 66- Certo
3- Certo 19- Certo 35- Certo 51- Errado 67- Certo
4- Certo 20- Certo 36- Certo 52- Certo 68- Certo
5- Errado 21- Certo 37- Certo 53- Certo 69- Errado
6- Certo 22- Certo 38- Letra C 54- Errado 70- Certo
7- Errado 23- Certo 39- Certo 55- Certo 71- Certo
8- Errado 24- Letra C 40- Errado 56- Errado 72- Errado
9- Certo 25- Errado 41- Certo 57- Certo 73- Certo
10- Errado 26- Certo 42- Errado 58- Certo 74- Errado
11- Certo 27- Certo 43- Errado 59- Errado 75- Errado
12- Errado 28- Errado 44- Certo 60- Certo 76- Errado
13- Certo 29- Letra B 45- Certo 61- Certo 77- Certo
14- Errado 30- Letra E 46- Errado 62- Errado 78- Certo
15- Certo 31- Errado 47- Errado 63- Letra C 79- Certo
16- Certo 32- Certo 48- Certo 64- Certo 80- Errado
53