Tecnologia Da Informação - Apostila - Aula 2

Aula 02
SEFAZ-AL - Tecnologia da Informação -

2021 (Pós-Edital)
Autor:
Ramon Souza, Equipe Informática
e TI
Aula 02
09 de Julho de 2021
Ramon Souza, Equipe Informática e TI
Aula 02
Sumário
SOBRE O PROFESSOR................................................................................................................................... 3
GLOSSÁRIO DE TERMOS.............................................................................................................................. 4
DATA MINING ................................................................................................................................................. 5
1. – Noções de mineração de dados .................................................................................................... 5
2. – Modelo de Referência CRISP-DM .................................................................................................. 9
3. – Técnicas para pré-processamento de dados ............................................................................. 14
4. – Técnicas e tarefas de mineração de dados ................................................................................ 19
4.1 – Classificação.................................................................................................................................. 23
4.2 – Regras de associação .................................................................................................................. 27
4.3 – Análise de agrupamentos (clusterização) ................................................................................. 31
5. – Detecção de anomalias .................................................................................................................. 35
6. – Modelagem preditiva ..................................................................................................................... 36
7. – Aprendizado de máquina .............................................................................................................. 37
8. – Mineração de texto ......................................................................................................................... 38
LISTA DE ESQUEMAS .................................................................................................................................. 40
REFERÊNCIAS ................................................................................................................................................ 46
QUESTÕES COMENTADAS........................................................................................................................ 47
CEBRASPE/CESPE..................................................................................................................................... 47
FCC .............................................................................................................................................................. 72
LISTA DE QUESTÕES ................................................................................................................................... 95
CEBRASPE/CESPE..................................................................................................................................... 95
FCC ............................................................................................................................................................ 106
GABARITO.................................................................................................................................................... 120
CEBRASPE/CESPE................................................................................................................................... 120
FCC ............................................................................................................................................................ 120
SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

www.estrategiaconcursos.com.br
Aula 02
A nossa aula é bem esquematizada, então para facilitar o seu acesso aos esquemas, você pode
usar o seguinte índice:
Esquema 1 – Mineração de dados. .................................................................................................................. 6
Esquema 2 – Características da mineração de dados. ................................................................................... 7
Esquema 3 – Objetivos da mineração de dados. ............................................................................................ 8
Esquema 4 – CRISP-DM. ................................................................................................................................. 12
Esquema 5 – Técnicas de pré-processamento (Navathe). .......................................................................... 15
Esquema 6 – Técnicas de pré-processamento (CRISP-DM). ....................................................................... 16
Esquema 7 – Técnicas ou tarefas de mineração. .......................................................................................... 21
Esquema 8 – Classificação. ............................................................................................................................. 25
Esquema 9 – Associação. ................................................................................................................................ 29
Esquema 10 – Agrupamentos (clusterização).............................................................................................. 34
Esquema 11 – Mineração de texto................................................................................................................. 39

Aula 02
SOBRE O PROFESSOR
Meu nome é Ramon Jorge de Souza e sou Auditor Fiscal da Receita

Estadual na área de Tecnologia da Informação da SEFAZ-SC.
Fui aprovado em 12 concursos públicos: SEFAZ-SC, TCE-CE, CNMP,
ANTAQ, INSS, MPU, MPOG, EBSERH, DATAPREV, CONAB, BRB e
PETROBRÁS.
Sou professor de TI, Análise de Informações e Informática para concursos
públicos desde 2017.
Agora estou aqui para ajudar você a conseguir sua aprovação. Conte comigo!
Para ter acesso a dicas e conteúdos gratuitos, acesse minhas redes sociais:
Instagram https://www.instagram.com/proframonsouza
Telegram https://t.me/proframonsouza
Youtube https://www.youtube.com/channel/UCwroD4k2RJTCx0gCEEoI1xQ

Aula 02
GLOSSÁRIO DE TERMOS
Algoritmo: sequência de ações que visam obter uma solução para um determinado tipo de problema.
Aprendizado de máquina: método que automatiza o desenvolvimento de modelos analíticos.
Classificação: descreve os dados e os categoriza em classes pré-definidas.
Cluster: grupo de elementos que apresenta similaridade.
Confiança ou força: probabilidade de existir relação entre itens.
Data mining ou mineração de dados: descoberta de padrões ou regras em dados.
Depuração: processo de encontrar ou reduzir defeitos.
Estratificar: separar em níveis.
Não proprietário: livre para uso e adaptação.
Outlier ou anomalia: ponto fora da curva.
Particionamento: divisão de elementos em grupos.
Predição: previsão.
Processo não trivial: processo que não é facilmente realizado. Contrário de simples.
Suporte ou prevalência: frequência que um conjunto de itens ocorre.

Aula 02
DATA MINING
1. – Noções de mineração de dados
A grande quantidade de dados gerada pelas organizações requer mecanismos mais voltados para
auxiliar a tomada de decisões. Os gestores precisam analisar essa grande “massa” de dados e identificar
padrões, regras, tendências e comportamentos excepcionais para que possam tomar decisões e agir
para otimizar os negócios. Dada esta quantidade de dados crescente, o que torna inviável a análise
humana e manual, a mineração de dados (data mining) é utilizada para auxiliar nessas análises.
A mineração de dados (data mining) refere-se à mineração ou descoberta de novas informações

em termos de padrões ou regras com base em grandes quantidades de dados. Dito de outro modo, o
termo mineração de dados foi originalmente usado para descrever o processo pelo qual os padrões
anteriormente desconhecidos em dados são descobertos.
Tecnicamente falando, a mineração de dados é um processo que utiliza técnicas de estatística,

matemática e inteligência artificial para extrair e identificar informações úteis e subsequentes
conhecimentos (ou padrões) em grandes conjuntos de dados.
Em outro conceito, a mineração de dados é entendida como o processo não trivial de identificar
padrões válidos, novos, potencialmente úteis e, em última instância, compreensíveis em dados
armazenados em bancos de dados estruturados.
Os termos extração de conhecimento, análise de padrões, arqueologia de dados, busca de padrões

ou dragagem de dados podem ser usados como sinônimos para mineração de dados.
É importante destacar que a mineração de dados pode ser utilizada junto com um data warehouse
para ajudar com certos tipos de decisões. Porém, não está restrita a um DW, podendo ser aplicada
também a bancos de dados operacionais com transações individuais. Alguns recursos de mineração
são fornecidos por SGBDs relacionais, mas de forma limitada.
A mineração de dados não é uma nova disciplina, mas sim uma nova definição para o uso de muitas
disciplinas. A mineração de dados está bem posicionada na interseção de muitas disciplinas,
incluindo estatística, inteligência artificial, aprendizado de máquinas, ciência de gestão, sistemas
de informação e bancos de dados. Usando avanços em todas essas disciplinas, a mineração de dados
se esforça para avançar na extração de informações e conhecimentos úteis de grandes bancos de dados.
É um campo emergente que atraiu muita atenção em pouco tempo.
A mineração de dados é amplamente utilizada em diversos ramos. Os dados gerados pela Internet
estão aumentando rapidamente em volume e complexidade. Grandes quantidades de dados genômicos
estão sendo gerados e acumulados em todo o mundo. Disciplinas como a astronomia e a física nuclear
criam enormes quantidades de dados regularmente. Pesquisadores médicos e farmacêuticos
constantemente geram e armazenam dados que podem ser usados em aplicativos de mineração de
dados para identificar melhores maneiras de diagnosticar e tratar com precisão doenças e descobrir
novos e melhores medicamentos.

Aula 02
Do lado comercial, talvez o uso mais comum da mineração de dados tenha sido nos setores de finanças,
varejo, marketing, manufatura e saúde. A mineração de dados é usada para detectar e reduzir
atividades fraudulentas; para identificar os padrões de compra dos clientes; para identificar clientes
rentáveis; para segmentar clientes; identificar regras de negociação a partir de dados históricos; e para
auxiliar no aumento da rentabilidade usando a análise da cesta de mercado.
Uma organização que efetivamente aproveita as ferramentas e tecnologias de mineração de dados

pode adquirir e manter uma vantagem competitiva estratégica. A mineração de dados oferece às
organizações um ambiente indispensável para melhorar a decisão de forma a explorar novas
oportunidades pela transformação dos dados em uma arma estratégica.
Vamos fixar o apreendido até aqui com um esqueminha!
Processo não trivial de identificar

Descoberta de novas informações em padrões válidos, novos,
termos de padrões ou regras. potencialmente úteis e
compreensíveis.
Mineração de dados
(Extração de Não é uma nova disciplina, mas uma
conhecimento, análise Utiliza técnicas de estatística, interseção de muitas (estatística,
de padrões, inteligência artificial, aprendizado de
matemática e inteligência artificial.
arqueologia de dados, máquinas, ciência de gestão, sistemas de
busca de padrões ou informação e bancos de dados).
dragagem de dados)
Pesquisas.
Amplamente utilizada em diversos Finanças, varejo, marketing,
ramos manufatura e saúde.
Vantagem competitiva estratégica.
Esquema 1 – Mineração de dados.
As principais características da mineração de dados são:
❖ Os dados são frequentemente dispostos em bancos de dados muito grandes, que às vezes
contêm dados de vários anos. Em muitos casos, os dados são limpos e consolidados em um
data warehouse.
❖ O ambiente de mineração de dados geralmente é uma arquitetura cliente/servidor ou uma
baseada na Web.
❖ Novas ferramentas sofisticadas ajudam a recuperar informações de arquivos
corporativos e registros públicos e podem extrair dados de bancos não estruturados
(ex. bancos do Lotus Notes, textos e intranets empresariais).
❖ Os usuários podem realizar consultas com o uso de ferramentas especializadas sem
conhecimentos de programação.

Aula 02
❖ Muitas vezes encontram-se resultados inesperados e exige-se que os usuários finais

pensem criativamente ao longo do processo, incluindo a interpretação das descobertas.
❖ Ferramentas de mineração são facilmente combinadas com planilhas e outras
ferramentas de desenvolvimento de software.
❖ Às vezes é necessário usar processamento paralelo para suportar a carga de grandes
quantidades de dados e de consultas.
❖ Alguns métodos de mineração são específicos para os tipos de dados que manipulam.
Fornecer-lhes tipos de dados incompatíveis pode levar a modelos incorretos ou a uma parada
do processo de desenvolvimento do modelo.
Bancos de dados muito

grandes
Requer, por vezes, Arquitetura
processamento cliente/servidor ou
paralelo uma baseada na Web
Características da
mineração de dados Ferramentas
Fácil combinação com sofisticadas para
outras ferramentas recuperação de
informações
Resultados
Consultas sem
inesperados e
conhecimento de
exigência de
pensamento criativo programação
Esquema 2 – Características da mineração de dados.
A mineração de dados costuma ser executada com alguns objetivos finais ou aplicações. Segundo
Navathe, de um modo geral, estes objetivos se encontram nas seguintes classes:
❖ Previsão: a mineração de dados pode mostrar como certos atributos dos dados se
comportarão no futuro. Para realizar a previsão (ou prognóstico), a lógica de negócios é
utilizada em conjunto com a mineração de dados. Ex.: previsão de compras sob certos descontos.
❖ Identificação: os padrões de dados podem ser usados para identificar a existência de um
item, um evento ou uma atividade. Ex.: intrusos tentando quebrar um sistema.

Aula 02
2. – Modelo de Referência CRISP-DM
A realização da mineração de dados de forma sistemática geralmente segue um processo geral. Com
base nas melhores práticas, pesquisadores e profissionais de mineração de dados propuseram vários
processos (fluxos de trabalho ou abordagens simples passo a passo) para maximizar as chances de
sucesso na realização de projetos de mineração de dados.
O modelo de referência CRISP-DM é provavelmente o mais popular e foi proposto por um consórcio
de empresas europeu para servir como metodologia padrão não proprietária para a mineração de
dados. O CRISP-DM é o processo para condução da mineração de dados de forma sistemática
composto por seis etapas que vão desde uma boa compreensão do negócio e da necessidade do
projeto de mineração até a implantação da solução para atender a esta necessidade. A figura a
seguir apresenta as seis etapas do modelo CRISP-DM.
Vamos detalhar cada uma das seis etapas do modelo CRISP-DM, mas antes é importante fazer uma
ressalva: embora estas etapas possuam uma natureza sequencial, geralmente há uma grande
quantidade de retornos às fases anteriores. Como podemos notar na figura, por exemplo, pode haver
um retorno da etapa de construção do modelo para a preparação dos dados caso seja necessário.
Como a mineração de dados é conduzida com base na experiência e experimentação, dependendo da

situação do problema e do conhecimento ou experiência do analista, o processo pode ser bastante
iterativo e demorado. Outro importante destaque é que como os últimos passos são construídos sobre
o resultado dos anteriores, deve-se prestar atenção extra às etapas anteriores, a fim de não colocar todo
o estudo em um caminho incorreto desde o início.

Aula 02
Vale ressaltar que o CRISP DM é um processo para conduzir a mineração de dados. Logo, todas as fases
podem ser consideradas como fases da mineração segundo esse processo.
Vejamos então cada uma das fases do modelo CRISP-DM:
❖ Entendimento do negócio: o elemento-chave de qualquer iniciativa de mineração de dados é

saber para o que ela serve. Esta fase inicial se concentra, portanto, na compreensão das
necessidades gerenciais e dos objetivos e requisitos de negócio que devem ser atendidos
pela mineração de dados. Em seguida, um plano de projeto para busca de conhecimentos é
desenvolvido, especificando as pessoas responsáveis pela coleta dos dados, análise os dados e
reporte dos resultados. Nesta fase inicial, um orçamento para apoiar o estudo também deve ser
estabelecido, pelo menos em alto nível com valores aproximados.
❖ Entendimento dos dados: etapa que objetiva identificar os dados relevantes das diferentes
fontes de dados. A fase de entendimento dos dados começa com uma coleta inicial de dados e
prossegue com atividades para se familiarizar com os dados, identificar problemas de
qualidade de dados, descobrir novos insights sobre os dados ou detectar subconjuntos
interessantes para formar hipóteses para informações ocultas. O analista deve ser claro e
conciso sobre a descrição da tarefa de mineração de dados para que os dados mais relevantes
possam ser identificados e deve construir uma compreensão adequada das fontes de dados e das
variáveis existentes.
❖ Preparação dos dados (ou pré-processamento de dados): tem como propósito carregar os
dados identificados no passo anterior e prepará-los para análise por métodos de mineração
de dados. A fase de preparação de dados abrange todas as atividades para construir o
conjunto de dados final (dados que serão alimentados na ferramenta de modelagem) a partir
dos dados brutos iniciais. As tarefas incluem seleção de tabelas, registros e atributos, bem
como transformação e limpeza de dados para inclusão nas ferramentas de modelagem. As tarefas
de preparação de dados provavelmente serão realizadas várias vezes independentemente de
ordem específica. Comparado com os outros passos no CRISP-DM, a preparação de dados
consome mais tempo e esforço (cerca de 80% do tempo total), pois os dados do mundo real
são geralmente incompletos (falta de valores de atributos, falta de certos atributos de interesse
ou contendo apenas dados agregados), ruidosos (contendo erros ou valores atípicos) e
inconsistentes (contendo discrepâncias em códigos ou nomes).

Aula 02
❖ Construção do modelo (ou modelagem): nesta etapa, várias técnicas de modelagem são
selecionadas e aplicadas em um conjunto de dados já preparado para atender às
necessidades específicas do negócio. Dependendo da necessidade do negócio, a tarefa de
mineração de dados pode ser de uma predição (classificação ou regressão), uma associação ou
uma clusterização, cada uma dessas tarefas podendo usar uma variedade de métodos ou
algoritmos. A etapa de construção de modelo também abrange a avaliação e análise
comparativa dos vários modelos construídos, pois como não existe um melhor método ou
algoritmo universalmente conhecido para uma tarefa de mineração de dados, deve-se usar uma
variedade de tipos de modelos viáveis, juntamente com uma experimentação bem definida e
estratégia de avaliação para identificar o "melhor" método para um determinado propósito.
Mesmo para um único método ou algoritmo, é necessário calibrar uma série de parâmetros para
obter melhores resultados. Alguns métodos podem ter requisitos específicos na forma como os
dados devem ser formatados; assim, voltar para o passo de preparação de dados é muitas vezes
necessário.
❖ Teste e avaliação: os modelos desenvolvidos são testados e avaliados quanto à sua

precisão e generalidade. Esta etapa avalia o grau em que o modelo selecionado (ou
modelos) atende aos objetivos comerciais, podendo inclusive testar o(s) modelo(s)
desenvolvido(s) em um cenário do mundo real se o tempo e as restrições orçamentárias
permitirem. A etapa de teste e avaliação é uma tarefa crítica e desafiadora, pois nenhum valor
é adicionado pela tarefa de mineração de dados até que o valor comercial obtido a partir de
padrões de conhecimento descobertos seja identificado e reconhecido.
❖ Implantação: etapa em que o conhecimento adquirido com a exploração dos dados é

organizado e apresentado de forma que o usuário possa entendê-lo e tirar benefício dele.
Dependendo dos requisitos, a fase de implantação pode ser tão simples como gerar um relatório
ou tão complexo quanto implementar um processo de mineração de dados repetitivo em toda a
empresa. Em muitos casos, é o cliente, e não o analista de dados, que executa as etapas de
implantação. No entanto, mesmo que o analista não realize o esforço de implantação, é
importante que o cliente compreenda quais ações devem ser realizadas para realmente fazer uso
dos modelos criados. A etapa de implantação também pode incluir atividades de manutenção
para os modelos implantados, pois o negócio está em constante mudança e os dados que
refletem as atividades comerciais também estão mudando.

Aula 02
(CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da Informação - Ciência de

Dados) Julgue o seguinte item, a respeito de big data.
A etapa de modelagem do modelo CRISP-DM permite a aplicação de diversas técnicas de mineração
sobre os dados selecionados, conforme os formatos dos próprios dados.
Comentários:
Na etapa de construção do modelo (ou modelagem), várias técnicas de modelagem são selecionadas
e aplicadas em um conjunto de dados já preparado para atender às necessidades específicas do negócio.
Dependendo da necessidade do negócio, a tarefa de mineração de dados pode ser de uma predição
(classificação ou regressão), uma associação ou uma clusterização, cada uma podendo usar uma
variedade de métodos ou algoritmos. Esta etapa também abrange a avaliação e análise comparativa dos
vários modelos construídos, pois como não existe um melhor método ou algoritmo universalmente
conhecido para uma tarefa de mineração de dados, deve-se usar uma variedade de tipos de modelos
viáveis, juntamente com uma experimentação bem definida e estratégia de avaliação para identificar o
"melhor" método para um determinado propósito. Mesmo para um único método ou algoritmo, é
necessário calibrar uma série de parâmetros para obter melhores resultados. Alguns métodos podem
ter requisitos específicos na forma como os dados devem ser formatados.
Gabarito: Certo

Dados) No que se refere à mineração de dados, julgue o item a seguir.
No modelo CRISP-DM, a fase na qual se planejam todas as atividades para carga dos dados é denominada
entendimento dos dados.
Comentários:
O planejamento das atividades é realizado na fase de entendimento de negócio.
A fase de entendimento dos dados visa identificar os dados relevantes das diferentes fontes de dados. A
fase de entendimento dos dados começa com uma coleta inicial de dados e prossegue com atividades
para se familiarizar com os dados, identificar problemas de qualidade de dados, descobrir novos
insights sobre os dados ou detectar subconjuntos interessantes para formar hipóteses para informações
ocultas. O analista deve ser claro e conciso sobre a descrição da tarefa de mineração de dados para que
os dados mais relevantes possam ser identificados e deve construir uma compreensão adequada das
fontes de dados e das variáveis existentes.
Gabarito: Errado

Aula 02
3. – Técnicas para pré-processamento de dados
Meus caros, neste tópico detalhamentos as atividades que são realizadas antes de se aplicar de fato as
técnicas de mineração de dados.
Os dados disponíveis nas bases de dados existentes são altamente suscetíveis a ruídos, perdas e
inconsistências devido ao grande tamanho dessas bases e suas origens de múltiplas fontes
heterogêneas. Se forem utilizados dados de baixa qualidade, os resultados da mineração serão de baixa
qualidade e, portanto, estes dados precisam ser preparados ou pré-processados. As técnicas de pré-
processamento buscam melhorar a qualidade dos dados e, consequentemente, da eficiência e
resultados da mineração.
Diversas técnicas de pré-processamento podem ser aplicadas. Veremos nesta aula, as técnicas
discutidas por Navathe e no modelo CRISP-DM. Embora os autores e modelos apresentem uma lista de
técnicas diferentes, tenha em mente que estas técnicas para pré-processamento estão voltadas para
a preparação dos dados para que estes sejam submetidos à mineração de dados.
Técnicas de pré-processamento segundo Navathe
Navathe considera que a mineração de dados faz parte de um processo maior de descoberta de
conhecimento nos bancos de dados, abreviado como KDD (Knowledge Discovery in Databases).
O processo de descoberta de conhecimento compreende seis fases: seleção de dados, limpeza de

dados, enriquecimento, transformação ou codificação de dados, mineração de dados e o relatório e
exibição da informação descoberta. As quatro primeiras fases são ditas de pré-processamento, pois
ocorrem anteriormente a mineração de dados propriamente dita.
Vejamos o que ocorre em cada uma das quatro fases de pré-processamento:
❖ Seleção de dados: os dados são selecionados das diferentes bases de dados de acordo com
a necessidade do projeto de mineração.
❖ Limpeza de dados: correção dos dados, por exemplo, por meio da eliminação de redundâncias
ou correção de códigos inválidos.
Se a mineração de dados for baseada em um data warehouse existente, é possível que a limpeza
já tenha sido aplicada por meio de ETL.
❖ Enriquecimento: melhoria dos dados com base em fontes de informações adicionais.

❖ Transformação de dados e codificação: podem ser feitas para reduzir a quantidade de
dados, por exemplo, por meio de agregações.

Aula 02
❖ Transformação de dados: os dados são transformados para um melhor processamento.

Em muitos casos, os dados são normalizados entre um determinado mínimo e máximo para
todas as variáveis, a fim de mitigar o viés potencial de uma variável dominando outras variáveis
com valores menores. Outra transformação que ocorre é discretização e/ou agregação, em que
as variáveis numéricas são convertidas em valores categóricos e o intervalo de valores exclusivo
de uma variável nominal é reduzido a um conjunto menor usando hierarquias conceituais para
ter um conjunto de dados que seja mais acessível ao processamento de computadores. Ainda
assim, em outros casos, pode-se optar por criar novas variáveis baseadas nas existentes para
ampliar as informações encontradas em uma coleção de variáveis no conjunto de dados.
❖ Redução dos dados: embora seja importante possuir todos os dados relevantes, muitos dados
também são um problema. Em alguns casos, o número de variáveis pode ser bastante grande, e
o analista deve reduzir o número de variáveis para um tamanho gerenciável (chamada
redução dimensional, pois as variáveis são tratadas por dimensões). Em alguns casos, é
necessário reduzir o número de casos selecionando um subconjunto dos dados para análise,
desde que a amostra selecionada contenha todos os padrões relevantes do conjunto de dados
completo. Além disso, é uma boa prática equilibrar os dados altamente distorcidos utilizando
técnicas de amostragens capazes de realizar este equilíbrio.
O esquema a seguir sintetiza as técnicas de preparação:
Esquema 6 – Técnicas de pré-processamento (CRISP-DM).

Aula 02

Dados) Acerca de conceitos, premissas e aplicações de big data, julgue o item subsequente.
O objetivo das técnicas de pré-processamento de dados é preparar os dados brutos para serem
analisados sem erros de incompletudes, inconsistências e ruídos.
Comentários:
Gabarito: Certo

O objetivo da etapa de pré-processamento é diminuir a quantidade de dados que serão analisados, por
meio da aplicação de filtros e de eliminadores de palavras.
Comentários:
processamento buscam melhorar a qualidade dos dados e, consequentemente, da eficiência e resultados
da mineração.
Dentre as tarefas de pré-processamento figura a limpeza dos dados, em que há a correção dos dados,
por exemplo, por meio da eliminação de redundâncias ou correção de códigos inválidos.
Gabarito: Certo

Aula 02
4. – Técnicas e tarefas de mineração de dados
A mineração de dados constrói modelos para identificar padrões entre os atributos apresentados no
conjunto de dados, usando dados existentes e relevantes. Os modelos são as representações
matemáticas (relações entre as variáveis) que identificam os padrões entre os atributos dos objetos
descritos no conjunto de dados. Alguns desses padrões são explicativos (explicando as inter-relações e
afinidades entre os atributos), e outros são preditivos (prevendo os valores futuros de certos atributos).
Os padrões ou o conhecimento descoberto durante a mineração de dados podem ser descritos com base
em regras de associação, hierarquias de classificação, padrões sequenciais, padrões dentro de
série temporal e agrupamento (clusterização).
Estas formas de descrição dos padrões são chamadas de tarefas (ou técnicas) da mineração de dados.
1
Turban as classifica em três categorias principais: predição (inclui a classificação e regressão),
associação (inclui a análise de relacionamentos e a análise de sequências) e agrupamento ou
clusterização (inclui a análise de outliers).
Vejamos estas tarefas:
❖ Predição (ou previsão): busca descrever a natureza de ocorrências futuras de certos

eventos com base nos acontecimentos passados. Difere da adivinhação, pois leva em
consideração as experiências, opiniões e outras informações relevantes na condução da previsão.
Dependendo da natureza da predição, podemos falar em classificação ou regressão.
o Classificação (ou indução supervisionada): tem como objetivo criar uma hierarquia
de classes com base em um conjunto existente de eventos ou transações. É a tarefa
mais comum de mineração de dados. Gera-se automaticamente um modelo que pode
prever o comportamento futuro partir da análise dos dados históricos armazenados em
um banco de dados. Este modelo consiste em generalizações sobre os registros,
distinguindo-os com base nas classes pré-definidas. Ex.: uma população pode ser
dividida em cinco faixas de possibilidade de crédito com base em um histórico de
transações anteriores.
o Regressão: é uma aplicação especial da regra de classificação, que ocorre quando esta
regra de classificação é uma função sobre as variáveis mapeando essas variáveis em
uma variável de classe de destino. Ex.: identificar a probabilidade de um paciente
sobreviver com base em variáveis como grau de infecção ou idade.

Aula 02
❖ Associação (ou aprendizagem de regras): visa descobrir relacionamentos entre variáveis

em grandes bancos de dados. Dito de outro modo, as regras de associação correlacionam a
presença de um item com uma faixa de valores para um conjunto de variáveis diverso.
o Análise de ligações: a ligação entre os diversos objetos de interesse é descoberta
automaticamente. Ex.: quando um cliente do sexo masculino compra fraldas em
supermercado, geralmente ele compra cerveja.
o Padrões sequenciais: uma sequência de ações ou eventos é buscada. A detecção de

padrões sequenciais é equivalente à detecção de associações entre eventos com
certos relacionamentos temporais. Ex.: se um paciente fuma excessivamente,
provavelmente sofrerá com problemas pulmonares.
c
o Padrões dentro de série temporal: as similaridades entre os dados podem ser
detectadas dentro de posições de uma série temporal, que é uma sequência de dados
tomados em intervalos regulares. Ex.: os casacos de frio são mais baratos no verão e
mais caros no inverno.
❖ Agrupamento (clusterização): partição de uma coleção de coisas, eventos ou itens em

segmentos cujos membros são características semelhantes. Ao contrário da classificação, no
agrupamento, as classes são previamente desconhecidas. Ex.: uma população inteira de dados
de transação sobre uma doença pode ser dividida em grupos com base na similaridade dos
efeitos colaterais produzidos.
o Análise de outliers: identificação dos dados que não apresentam o mesmo
comportamento padrão da maioria. Ex.: identificação de pessoa com renda muito
superior aos perfis de renda em determinada organização.
Como destacamos, neste momento apresentamos as definições de cada uma das tarefas ou técnicas. Boa
parte das questões cobra somente o entendimento da definição de cada uma destas técnicas, então fixe
bem o conceito de cada uma destas tarefas.

Aula 02

Estratificação é a abordagem da técnica de árvore de decisão que determina as regras para direcionar
cada caso a uma categoria já existente.
Comentários:
As árvores de decisão classificam os dados em um número finito de classes com base nos valores das
variáveis de entrada. As árvores de decisão são essencialmente uma hierarquia de declarações se-então
e, portanto, são significativamente mais rápidas do que as redes neurais. Elas são mais apropriadas para
dados categorizados e intervalos de dados. Portanto, incorporar variáveis contínuas em uma estrutura
de árvore de decisão requer discretização; ou seja, converter variáveis numéricas de valor contínuo em
intervalos e categorias.
Estratificar significa separar em níveis. Logo, a árvore de decisão auxilia nesse processo, separando as
classes com base nos valores de entrada.
Gabarito: Certo
(FCC - 2019 - SANASA Campinas - Analista de Tecnologia da Informação - Suporte de DBA-Banco

de Dados) Considere que a SANASA busca realizar a gestão de recursos hídricos subterrâneos com base
em parâmetros conhecidos que determinam a poluição das águas subterrâneas. Um desses parâmetros,
para exemplificar, seria o nitrato, um indicador de poluição difusa de água subterrânea. Criando-se
regras para realizar o aprendizado supervisionado do sistema de Data Mining utilizando-se uma certa
técnica, chegar-se-á a um resultado que considera os diversos parâmetros para se descobrir se um certo
aquífero tem água potável ou não, comparando-se com uma definição conhecida.
Nesse cenário, a técnica aplicada é denominada
a) Associação.
b) Classificação.
c) Clustering.
d) Regressão.
e) Prediction.
Comentários:
A questão está descrevendo uma situação de aprendizado supervisionado, logo classificação. Outra
forma de identificar é que há comparação com uma definição conhecida, ou seja, as classes são
previamente definidas.
Gabarito: Letra B

Aula 02

O objetivo da técnica de sequência de tempo é identificar a ocorrência de dois eventos diferentes no
mesmo momento.
Comentários:
Com o uso de padrões sequenciais (sequência de tempo), uma sequência de ações ou eventos é
buscada. A detecção de padrões sequenciais é equivalente à detecção de associações entre eventos com
certos relacionamentos temporais. Ex.: se um paciente fuma excessivamente, provavelmente sofrerá
com problemas pulmonares.
Os eventos ocorrem em momentos diferentes (e sequenciais) e não no mesmo momento.
Gabarito: Errado

A técnica de associação é utilizada para indicar um grau de afinidade entre registros de eventos
diferentes, para permitir o processo de data mining.
Comentários:
As regras de associação visam descobrir relacionamentos entre variáveis em grandes bancos de dados.
Dito de outro modo, as regras de associação correlacionam a presença de um item com uma faixa de
valores para um conjunto de variáveis diverso.
Gabarito: Certo

Aula 02
A clusterização pode se proceder de duas formas gerais:
❖ Divisivo: todos os itens começam em um cluster e são quebrados em clusters menores.

❖ Aglomerativo: todos os itens começam em clusters individuais e os clusters são unidos
baseando-se em suas semelhanças.
A clusterização pode ser realizada com métodos hierárquicos ou não-hierárquicos.

❖ Os métodos hierárquicos tem como principal característica um algoritmo capaz de fornecer
mais de um tipo de partição dos dados. Ele gera vários agrupamentos possíveis, onde um cluster
pode ser mesclado a outro em determinado passo do algoritmo. Esses métodos não exigem que
já se tenha um número inicial de clusters e são considerados inflexíveis uma vez que não se
pode trocar um elemento de grupo.
❖ Os métodos não-hierárquicos da análise de cluster são caracterizados pela necessidade de

definir uma partição inicial e pela flexibilidade, uma vez que os elementos podem ser
trocados de grupo durante a execução do algoritmo.
A análise de clusters pode ser baseada em um ou mais dos seguintes métodos gerais:
❖ Métodos estatísticos: k-means, k-modes, k-medoids, etc.

o K-means (k média): o algoritmo atribui cada ponto de dados (cliente, evento, objeto,
etc.) ao cluster cujo centro (também chamado centróide) é o mais próximo. O centro
é calculado como a média de todos os pontos no cluster; ou seja, suas coordenadas
são a média aritmética para cada dimensão separadamente em todos os pontos do cluster.
o K-modes (k moda): estende o paradigma k-means para clusterizar dados categóricos

(nominais) ao trocar a média de clusters pela moda (elementos que mais se repetem),
usando novas medidas de similaridade para tratar com objetos categóricos, e usando um
método baseado em frequência para atualizar as modas dos clusters.
o K-medoids (k mediana): em relação a esse algoritmo, temos duas acepções possíveis.

▪ 1ª acepção: pode ser encontrado na literatura que o k-medoids ao invés de usar
a média para definir o centro dos clusters, utiliza a mediana (valor mais ao
centro do conjunto de dados). Assim, o elemento que melhor representa o cluster,
é definido de acordo com seus atributos sem que haja muita influência dos valores
próximos aos limites do cluster.

Aula 02
▪ 2ª acepção: é uma variação do k-means, mas não utiliza a média como centro do
grupo, e sim, considera um problema onde um objeto é o centro do próprio
grupo, chamado de objeto representativo ou medoide. O objeto central é aquele
com menor dissimilaridade média a todos os outros objetos do grupo.
Veja de modo ilustrativo a diferença entre o k-means e o k-medoids:
❖ Redes neurais: estruturas matemáticas que têm a capacidade de aprender com

experiências passadas apresentadas sob uma forma bem estruturada dos conjuntos de
dados.
❖ Lógica difusa: forma de lógica multivalorada na qual os valores lógicos das variáveis
podem ser qualquer número real entre 0 (FALSO) e 1 (VERDADEIRO). A lógica difusa foi
estendida para lidar com o conceito de verdade parcial, onde o valor verdade pode compreender
entre completamente verdadeiro e completamente falso.
❖ Algoritmos genéticos: são implementados como uma simulação de computador em que uma
população de representações abstratas de solução é selecionada em busca de soluções
melhores. A evolução geralmente se inicia a partir de um conjunto de soluções criado
aleatoriamente e é realizada por meio de gerações. A cada geração, a adaptação de cada solução
na população é avaliada, alguns indivíduos são selecionados para a próxima geração, e
recombinados ou mutados para formar uma nova população. A nova população então é utilizada
como entrada para a próxima iteração do algoritmo.

Aula 02
5. – Detecção de anomalias
A detecção de anomalias consiste na identificação de padrões em dados com um comportamento

diferente do esperado. Estes padrões são muitas vezes referidos como anomalias, outliers, exceções,
aberrações, observações discordantes, entre outros, variando de acordo com o contexto.
No contexto da mineração de dados, a análise de outliers é uma técnica ou tarefa realizada na análise
de clusters que consiste na identificação dos dados que não apresentam o mesmo comportamento
padrão da maioria. Ex.: identificação de pessoa com renda muito superior aos perfis de renda em
determinada organização.
Os resultados produzidos pelos métodos de detecção de anomalias são de um dos dois tipos seguintes:
❖ Pontuações: os métodos de pontuação atribuem uma pontuação de anomalia para cada

instância no teste de dados, dependendo do grau da anomalia. O analista pode optar por analisar
as anomalias mais “pontuadas” ou usar um ponto de corte para as selecionar.
❖ Rótulos: os métodos usados atribuem um rótulo (normal ou anormal) para cada instância de
teste.

Dados) Acerca de visualização e análise exploratória de dados, julgue o item seguinte.
Outlier ou anomalias são padrões nos dados que não estão de acordo com uma noção bem definida de
comportamento normal.
Comentários:
Os outliers são dados que não apresentam o mesmo comportamento padrão da maioria. Ex.:
identificação de pessoa com renda muito superior aos perfis de renda em determinada organização.
Gabarito: Certo

Aula 02
6. – Modelagem preditiva
A modelagem preditiva é uma técnica estatística para modelar e encontrar padrões, que utiliza dados
históricos para realizar previsões de tendências, padrões de comportamento ou eventos futuros.
A modelagem preditiva utiliza de estatísticas e modelos matemáticos para prever resultados

futuros. Basicamente, escolhe-se o melhor modelo fundamentado na probabilidade de um resultado
ocorrer conforme um conjunto de dados de entrada. Esses modelos utilizam um ou mais classificadores
que avaliam a probabilidade de um conjunto de dados pertencerem a outro conjunto. Assim, no nosso
contexto de mineração de dados, as tarefas preditivas de classificação e regressão são utilizadas com
esta finalidade.

Modelagem preditiva é utilizada para antecipar comportamentos futuros, por meio do estudo da relação
entre duas ou mais variáveis.
Comentários:
A predição busca descrever a natureza de ocorrências futuras de certos eventos com base nos
acontecimentos passados. Difere da adivinhação, pois leva em consideração as experiências, opiniões e
outras informações relevantes na condução da previsão. Dependendo da natureza da predição,
podemos falar em classificação ou regressão.
Gabarito: Certo

Aula 02
7. – Aprendizado de máquina
Aprendizado de Máquina (ou machine learning) é um método de análise de dados que

automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que aprendem
interativamente a partir de dados, o aprendizado de máquinas permite que os computadores encontrem
insights ocultos sem serem explicitamente programados para procurar algo específico.
As tarefas e técnicas de mineração de dados estão bem relacionadas com o aprendizado de máquina,
pois a mineração de dados descobre padrões e conhecimento previamente desconhecidos e o
aprendizado de máquina usa esses padrões e conhecimentos adquiridos, aplicando isso a outros
dados, e, em seguida, aplicando automaticamente esses resultados à tomada de decisões e ações.
O aprendizado de máquina é bastante utilizado para:
❖ Detecção de fraudes.
❖ Resultados de pesquisa na Web.
❖ Anúncios em tempo real em páginas da web e dispositivos móveis.
❖ Análise de sentimento baseada em texto.
❖ Pontuação de crédito e próximas melhores ofertas.
❖ Previsão de falhas em equipamento.
❖ Novos modelos de precificação.
❖ Detecção de invasão na rede.
❖ Reconhecimento de padrões e imagem.
❖ Filtragem de spams no e-mail.

Aprendizagem de máquina pode ajudar a clusterização na identificação de outliers, que são objetos
completamente diferentes do padrão da amostra.
Comentários:
O aprendizado de Máquina (ou machine learning) é um método de análise de dados que automatiza o
desenvolvimento de modelos analíticos. Usando algoritmos que aprendem interativamente a partir de
dados, o aprendizado de máquinas permite que os computadores encontrem insights ocultos sem serem
explicitamente programados para procurar algo específico.
Outliers podem sim ser identificados com o auxílio de aprendizado de máquina.
Gabarito: Certo

Aula 02
Técnicas ou tarefas de mineração de dados
Classes são pré-definidas. Classificação
Hierarquia de classes com

Predição base em um conjunto
existente de eventos ou
Descrever a natureza transações.
de ocorrências futuras
de certos eventos com
base nos
acontecimentos Regressão
passados.
Regra de classificação que é

uma função sobre variáveis.
Tarefas ou técnicas de mineração de dados
Análise de ligações
A ligação entre os diversos

objetos é descoberta
automaticamente.
Associação
Padrões sequenciais
Descobrir
relacionamentos
entre variáveis em Uma sequência de ações ou
grandes bancos de eventos é buscada.
dados.
Padrões de séries temporais
Classes são
As similaridades entre os
previamente
dados podem ser detectadas
desconhecidas.
dentro de posições de uma
série temporal.
Agrupamento
(clusterização)
Análise de outliers
Partição de uma
coleção de eventos ou Identificação dos dados que
itens em segmentos não apresentam o
cujos membros são comportamento padrão.
características
semelhantes.

Aula 02
REFERÊNCIAS
APRENDIS. Detecção de anomalias. Disponível em
<http://aprendis.gim.med.up.pt/index.php/Detec%C3%A7%C3%A3o_de_anomalias>. Acesso em: 11
dez. 2017.
CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. 2000.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistema de Banco de Dados. 6ed. São Paulo: Pearson
Addison Wesley, 2011.
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and techniques. Elsevier, 2011.
IMASTERS. Modelagem preditiva e produtos relacionados aos dados. Disponível em

<https://imasters.com.br/infra/modelagem-preditiva-e-produtos-relacionados-aos-
dados/?trace=1519021197&source=single>. Acesso em: 11 dez. 2017.
SAS. Machine Learning: O que é e por que é importante? Disponível em

<https://www.sas.com/pt_br/insights/analytics/machine-learning.html>. Acesso em: 11 dez. 2017.
TAN, Pang-Ning et al. Introduction to data mining. Pearson Education India, 2006.
TURBAN, Efraim et al. Business intelligence: A managerial approach. Upper Saddle River, NJ: Pearson
Prentice Hall, 2008.

Aula 02
QUESTÕES COMENTADAS
CEBRASPE/CESPE
1- (CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da Informação - Ciência

de Dados) Julgue o item a seguir, relativos a conceitos de modelagem dimensional.
Em um processo de modelagem dimensional, a operação de merge/pruge agrega informações das

dimensões para diminuir a tabela de fatos.
Comentários:
A operação merge/purge é um processo que envolve a agregação de vários conjuntos de dados, seguida
da eliminação de duplicados. Contudo, esse processo é realizado no processo de ETL, isto é, antes de os
dados serem carregados para o ambiente multidimensional. Portanto, a agregação não ocorre nas
informações presentes nas tabelas de fatos ou de dimensões, mas sim antes de os dados serem
carregados para o ambiente multidimensional.
Gabarito: Errado

de Dados) Acerca de conceitos, premissas e aplicações de big data, julgue o item subsequente.
Comentários:
Gabarito: Certo

Aula 02

de Dados) Julgue o seguinte item, a respeito de big data.
A análise de regressão em mineração de dados tem como objetivos a sumariação, a predição, o controle
e a estimação.
Comentários:
A regressão é uma aplicação especial da regra de classificação, que ocorre quando esta regra de
classificação é uma função sobre as variáveis mapeando essas variáveis em uma variável de classe de
destino. Ex.: identificar a probabilidade de um paciente sobreviver com base em variáveis como grau de
infecção ou idade.
Gabarito: Certo
Comentários:
O aprendizado de Máquina (ou machine learning) é um método de análise de dados que automatiza o
desenvolvimento de modelos analíticos. Usando algoritmos que aprendem interativamente a partir de
dados, o aprendizado de máquinas permite que os computadores encontrem insights ocultos sem serem
explicitamente programados para procurar algo específico.
Outliers podem sim ser identificados com o auxílio de aprendizado de máquina.
Gabarito: Certo

A técnica de agregação na mineração de dados atua em conjunto de registros que tenham sido
previamente classificados.
Comentários:
Atenção para não confundir agregação com classificação. A técnica que utiliza classes previamente
definidas é a classificação e não a agregação (agrupamentos ou clusterização).
Gabarito: Errado

Aula 02


Comentários:
Na etapa de construção do modelo (ou modelagem), várias técnicas de modelagem são selecionadas
e aplicadas em um conjunto de dados já preparado para atender às necessidades específicas do negócio.
Dependendo da necessidade do negócio, a tarefa de mineração de dados pode ser de uma predição
(classificação ou regressão), uma associação ou uma clusterização, cada uma podendo usar uma
variedade de métodos ou algoritmos. Esta etapa também abrange a avaliação e análise comparativa dos
vários modelos construídos, pois como não existe um melhor método ou algoritmo universalmente
conhecido para uma tarefa de mineração de dados, deve-se usar uma variedade de tipos de modelos
viáveis, juntamente com uma experimentação bem definida e estratégia de avaliação para identificar o
"melhor" método para um determinado propósito. Mesmo para um único método ou algoritmo, é
necessário calibrar uma série de parâmetros para obter melhores resultados. Alguns métodos podem
ter requisitos específicos na forma como os dados devem ser formatados.
Gabarito: Certo

de Dados) No que se refere à mineração de dados, julgue o item a seguir.
Mecanismos de busca utilizam mineração de textos para apresentar ao usuário os resultados de suas
pesquisas, de modo que ambos os conceitos se equivalem.
Comentários:
Mecanismo de busca difere de mineração de texto.
A mineração de texto (também conhecida como mineração de dados de texto ou descoberta de

conhecimento em bancos de dados textuais) é o processo semiautomático de extração de padrões
(informações úteis e conhecimento) de grandes quantidades de fontes de dados não estruturadas.
Um mecanismo de busca é um programa desenhado para procurar palavras-chave fornecidas pelo

utilizador em documentos e bases de dados. Atualmente existem inúmeros sites de busca na Internet.
Os mais utilizados são Google, Bing e o Yahoo. Na verdade, 99% das pessoas que fazem uma busca na
Internet, usam o Google.
Gabarito: Errado

Aula 02


mesmo momento.
Comentários:
Com o uso de padrões sequenciais (sequência de tempo), uma sequência de ações ou eventos é
buscada. A detecção de padrões sequenciais é equivalente à detecção de associações entre eventos com
certos relacionamentos temporais. Ex.: se um paciente fuma excessivamente, provavelmente sofrerá
com problemas pulmonares.
Os eventos ocorrem em momentos diferentes (e sequenciais) e não no mesmo momento
Gabarito: Errado

Comentários:
processamento buscam melhorar a qualidade dos dados e, consequentemente, da eficiência e resultados
da mineração.
Dentre as tarefas de pré-processamento figura a limpeza dos dados, em que há a correção dos dados,
por exemplo, por meio da eliminação de redundâncias ou correção de códigos inválidos.
Gabarito: Certo

Aula 02

A mineração de textos utiliza técnicas diferentes da mineração de dados, tendo em vista que os textos
representam um tipo específico de dado.
Comentários:
A mineração de texto é semelhante a mineração de dados, na medida em que tem o mesmo propósito e
usa os mesmos processos; mas com a mineração de texto, a entrada para o processo é uma coleção de
arquivos de dados não estruturados ou semiestruturados, como documentos do Word, arquivos PDF,
trechos de texto, arquivos XML e assim por diante.
Gabarito: Errado

Comentários:
As árvores de decisão classificam os dados em um número finito de classes com base nos valores das
variáveis de entrada. As árvores de decisão são essencialmente uma hierarquia de declarações se-então
e, portanto, são significativamente mais rápidas do que as redes neurais. Elas são mais apropriadas para
dados categorizados e intervalos de dados. Portanto, incorporar variáveis contínuas em uma estrutura
de árvore de decisão requer discretização; ou seja, converter variáveis numéricas de valor contínuo em
intervalos e categorias.
Gabarito: Certo

Aula 02

Na etapa de mineração do data mining, ocorre a seleção dos conjuntos de dados que serão utilizados no
processo de mining.
Comentários:
Que confusão hein? rsrsrs.
Mineração de dados é a tradução de data mining, logo não é uma etapa do processo.
O examinador deve ter tido o objetivo de tratar da etapa de entendimento dos dados do modelo CRISP-
DM.
Gabarito: Errado

Comentários:
A predição busca descrever a natureza de ocorrências futuras de certos eventos com base nos
acontecimentos passados. Difere da adivinhação, pois leva em consideração as experiências, opiniões e
outras informações relevantes na condução da previsão. Dependendo da natureza da predição,
podemos falar em classificação ou regressão.
Gabarito: Certo

Na análise hierárquica de agrupamentos, é possível realocar um elemento que tenha sido alocado
incorretamente no início do processo.
Comentários:
A assertiva está errada, pois na análise hierárquica de agrupamentos, não é possível a realocação de
elementos. A clusterização pode ser realizada com métodos hierárquicos ou não-hierárquicos.
Os métodos hierárquicos tem como principal característica um algoritmo capaz de fornecer mais de
um tipo de partição dos dados. Ele gera vários agrupamentos possíveis, onde um cluster pode ser
mesclado a outro em determinado passo do algoritmo. Esses métodos não exigem que já se tenha um

Aula 02
número inicial de clusters e são considerados inflexíveis uma vez que não se pode trocar um
elemento de grupo.
Os métodos não-hierárquicos da análise de cluster são caracterizados pela necessidade de definir uma
partição inicial e pela flexibilidade, uma vez que os elementos podem ser trocados de grupo durante
a execução do algoritmo.
Gabarito: Errado

Comentários:
As regras de associação visam descobrir relacionamentos entre variáveis em grandes bancos de dados.
Dito de outro modo, as regras de associação correlacionam a presença de um item com uma faixa de
valores para um conjunto de variáveis diverso.
Gabarito: Certo

Comentários:
O planejamento das atividades é realizado na fase de entendimento de negócio.
A fase de entendimento dos dados visa identificar os dados relevantes das diferentes fontes de dados. A
fase de entendimento dos dados começa com uma coleta inicial de dados e prossegue com atividades
para se familiarizar com os dados, identificar problemas de qualidade de dados, descobrir novos
insights sobre os dados ou detectar subconjuntos interessantes para formar hipóteses para informações
ocultas. O analista deve ser claro e conciso sobre a descrição da tarefa de mineração de dados para que
os dados mais relevantes possam ser identificados e deve construir uma compreensão adequada das
fontes de dados e das variáveis existentes.
Gabarito: Errado

Aula 02
17- (CESPE - 2019 - TCE-RO - Auditor de Controle Externo - Administração) Série temporal
consiste em
a) estrutura de dados qualitativos medidos negativamente por padrão.
b) estrutura de dados que podem ser medidos sem métrica definida.
c) estrutura de dados que rastreiam mudanças nos valores de uma métrica ao longo do tempo.
d) estrutura em que os dados podem ser marcados como verdadeiros ou falsos por padrão.
e) estrutura de dados numéricos que têm um número infinito de valores possíveis.
Comentários:
Com o uso de padrões dentro de série temporal, as similaridades entre os dados podem ser
detectadas dentro de posições de uma série temporal, que é uma sequência de dados tomados em
intervalos regulares. Ex.: os casacos de frio são mais baratos no verão e mais caros no inverno.
Gabarito: Letra C
18- (CESPE / CEBRASPE - 2019 - TJ-AM - Assistente Judiciário - Suporte ao Usuário de

Informática) A respeito de data warehouse e data mining, julgue o item que se segue.
A técnica machine learning pode ser utilizada para apoiar um processo de data mining.
Comentários:
As tarefas e técnicas de mineração de dados estão bem relacionadas com o aprendizado de máquina,
pois a mineração de dados descobre padrões e conhecimento previamente desconhecidos e o
aprendizado de máquina usa esses padrões e conhecimentos adquiridos, aplicando isso a outros
dados, e, em seguida, aplicando automaticamente esses resultados à tomada de decisões e ações.
Gabarito: Certo

de Dados) Acerca de visualização e análise exploratória de dados, julgue o item seguinte.
Comentários:
Gabarito: Certo

Aula 02
20- (CESPE / CEBRASPE - 2019 - TJ-AM - Analista Judiciário - Analista de Sistemas) A respeito de
bancos de dados relacionais, julgue o item a seguir.
Em sistemas de suporte à decisão, uma das abordagens da árvore de decisão é a predição, em que são
criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.
Comentários:
A predição é usada para descrever a natureza de ocorrências futuras de certos eventos com base
nos acontecimentos passados. Dentre os algoritmos que podem ser usados na predição temos a
árvore de decisão e as redes neurais, além de muitos outros métodos.
Gabarito: Certo
21- (CESPE - 2018 - FUB - Técnico de Tecnologia da Informação) Julgue o item a seguir, a respeito
de data mining e OLAP.
No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa
de valores de um outro conjunto de variáveis.
Comentários:
As regras de associação são uma técnica popular para descobrir relacionamentos interessantes
entre variáveis em grandes bancos de dados. Graças a tecnologias automatizadas de coleta de dados, o
uso de regras de associação para descobrir os relacionamentos entre os produtos em transações de
larga escala registradas nos sistemas de ponto de venda nos supermercados tornou-se uma tarefa
comum de descoberta de conhecimento no ramo varejista, em que é chamada de análise de cesta de
mercado.
Gabarito: Certo
22- (CESPE - 2018 - TCE-MG - Analista de Controle Externo - Ciência da Computação) Na técnica
de árvore de decisão em data mining, é empregada a abordagem denominada
a) análise de volumetria.
b) combinação de variáveis.
c) estratificação.
d) avaliação de dados.
e) percepção.

Aula 02
Comentários:
As árvores de decisão classificam os dados em um número finito de classes com base nos valores
das variáveis de entrada. As árvores de decisão são essencialmente uma hierarquia de declarações se-
então e, portanto, são significativamente mais rápidas do que as redes neurais. Elas são mais
apropriadas para dados categorizados e intervalos de dados. Portanto, incorporar variáveis contínuas
em uma estrutura de árvore de decisão requer discretização; ou seja, converter variáveis numéricas de
valor contínuo em intervalos e categorias.
Gabarito: Letra C
23- (CESPE - 2018 - Polícia Federal - Perito Criminal Federal - Conhecimentos Básicos - Todas
as Áreas) Acerca de banco de dados, julgue o seguinte item.
A mineração de dados se caracteriza especialmente pela busca de informações em grandes volumes de

dados, tanto estruturados quanto não estruturados, alicerçados no conceito dos 4V’s: volume de
mineração, variedade de algoritmos, velocidade de aprendizado e veracidade dos padrões.
Comentários:
A questão está relacionada a Big Data e não a Mineração de Dados.
O Big Data foi inicialmente conceituado com base em três premissas básicas, também conhecidas
como 3Vs: volume, velocidade e variedade. Além dessas premissas precursoras do conceito de Big Data,
outras premissas (ou Vs) complementam o conceito e têm sido discutidas quando se trata do tema.
Gabarito: Errado
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados,
que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina.
Comentários:


Aula 02

Gabarito: Certo
25- (CESPE - 2018 - Polícia Federal - Agente de Polícia Federal) Julgue o item que segue, relativo a
noções de mineração de dados, big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos,
potencialmente úteis e, ao final, compreensíveis.
Comentários:


Gabarito: Certo
26- (CESPE - 2018 - IPHAN - Analista I - Área 7) Julgue o item que se segue, a respeito de tecnologias
de sistemas de informação.
Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, em que
um agente externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus
correspondentes padrões de saída, comparando-se a resposta fornecida pelo algoritmo com a resposta
esperada.

Aula 02
Comentários:
A questão descreve a aprendizagem supervisionada.
A classificação é o processo de aprender um modelo que descreve diferentes classes de dados. As

classes são predefinidas e, portanto, esse tipo de atividade é também chamado de aprendizado
supervisionado.
Já na clusterização, o objetivo é classificar casos (por exemplo, pessoas, coisas, eventos) em grupos
ou clusters, de modo que o grau de associação seja forte entre os membros do mesmo cluster e
fraco entre os membros de diferentes clusters. Contudo, as classes não são previamente
definidas, logo falamos em aprendizado não supervisionado.
Gabarito: Errado
27- (CESPE - 2018 - TCM-BA - Auditor Estadual de Controle Externo) Assinale a opção correta a
respeito do CRISP-DM.
a) CRISP-DM é uma suíte de ferramentas proprietárias que vem se tornando um padrão da indústria
para mineração de dados, uma vez que fornece um plano completo e tecnologias para a realização de
um projeto de mineração de dados.
b) A verificação da qualidade dos dados é uma atividade da fase de entendimento dos dados.
c) Durante a fase de preparação dos dados, é realizado um inventário de requisitos, suposições e

restrições de recursos.
d) Na fase de avaliação dos dados, são realizadas as atividades de identificar valores especiais dos dados
e catalogar seu significado.
e) Na fase de preparação dos dados, são realizadas as atividades de analisar o potencial de implantação
de cada resultado e estimar o potencial de melhoria do processo atual.
Comentários:
Vamos analisar cada um dos itens:
a) Incorreto: O modelo de referência CRISP-DM é provavelmente o mais popular e foi proposto por
um consórcio de empresas europeu para servir como metodologia padrão não proprietária para a
mineração de dados.
b) Correto: A fase de entendimento dos dados começa com uma coleta inicial de dados e prossegue
com atividades para se familiarizar com os dados, identificar problemas de qualidade de dados,
descobrir novos insights sobre os dados ou detectar subconjuntos interessantes para formar
hipóteses para informações ocultas.

Aula 02
c) Incorreto: Durante a fase de preparação dos dados entendimento do negócio, é realizado um

inventário de requisitos, suposições e restrições de recursos.
d) Incorreto: Na fase de avaliação dos dados modelagem, são realizadas as atividades de identificar
valores especiais dos dados e catalogar seu significado.
e) Incorreto: Na fase de preparação dos dados teste e avaliação, são realizadas as atividades de
analisar o potencial de implantação de cada resultado e estimar o potencial de melhoria do processo
atual.
Gabarito: Letra B
28- (CESPE - 2018 - TCM-BA - Auditor Estadual de Controle Externo) A respeito das técnicas e(ou)
métodos de mineração de dados, assinale a opção correta.
a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam

coocorrência.
b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores
associados aos dados em um ou mais valores reais.
c) A regressão ou predição promove o aprendizado de uma função que pode ser usada para mapear
dados em uma de várias classes discretas definidas previamente, bem como encontrar tendências que
possam ser usadas para entender e explorar padrões de comportamento dos dados.
d) As regras de associação identificam grupos de dados, em que os dados têm características

semelhantes aos do mesmo grupo e os grupos têm características diferentes entre si.
e) Os métodos de classificação supervisionada podem ser embasados em separabilidade (entropia),

utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector
machines).
Comentários:
a) Incorreto: O agrupamento (ou clustering) As regras de associação realizam identificação de grupos

de dados que apresentam coocorrência.
b) Incorreto: A classificação regressão realiza o aprendizado de uma função que pode ser usada para
mapear os valores associados aos dados em um ou mais valores reais.

Aula 02
c) Incorreto: A regressão ou predição classificação promove o aprendizado de uma função que pode
ser usada para mapear dados em uma de várias classes discretas definidas previamente, bem como
encontrar tendências que possam ser usadas para entender e explorar padrões de comportamento dos
dados.
d) Incorreto: As regras de associação A clusterização identificam grupos de dados, em que os dados

têm características semelhantes aos do mesmo grupo e os grupos têm características diferentes entre
si.
e) Correto: Os métodos de classificação supervisionada podem ser embasados em separabilidade

(entropia), utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support
vector machines).
Gabarito: Letra E
29- (CESPE - 2018 - STJ - Técnico Judiciário - Desenvolvimento de Sistemas) Julgue o item que se
segue, acerca de data mining e data warehouse.
O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista
que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado
dentro dos data warehouses.
Comentários:
É importante destacar que a mineração de dados pode ser utilizada junto com um data warehouse
para ajudar com certos tipos de decisões. Porém, não está restrita a um DW, podendo ser aplicada
também a bancos de dados operacionais com transações individuais. Alguns recursos de mineração
são fornecidos por SGBDs relacionais, mas de forma limitada.
Gabarito: Errado
30- (CESPE - 2017 - TCE-PE - Analista de Controle Externo - Auditoria de Contas Públicas) Em
relação à análise de agrupamentos (clusterização) em mineração de dados, julgue o item seguinte.
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação
pertence ao grupo mais próximo da média.
Comentários:
A análise de clusters pode ser baseada em métodos estatísticos como o k-means (media), k-modes
(moda), k-medoids (mediana), etc.

Aula 02
O K-means (k média) é o algoritmo que atribui cada ponto de dados (cliente, evento, objeto, etc.) ao
cluster cujo centro (também chamado centróide) é o mais próximo. O centro é calculado como a
média de todos os pontos no cluster; ou seja, suas coordenadas são a média aritmética para cada
dimensão separadamente em todos os pontos do cluster.
Gabarito: Certo
31- (CESPE - 2017 - TCE-PE - Auditor de Controle Externo - Auditoria de Contas Públicas) Julgue
o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a

identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes.
Comentários:
Há um equívoco quanto a fase descrita no item. O item descreve a fase de entendimento dos dados
e não a de entendimento do negócio.
A fase de entendimento do negócio objetiva o entendimento das necessidades gerenciais e das

especificações de objetivos de negócio. Um plano de projeto para busca de conhecimento é
desenvolvido de modo a especificar as pessoas responsáveis por coletar, analisar e reportar dados. Um
orçamento de alto nível pode ser estabelecido.
Na fase de entendimento de dados, busca-se a identificação dos dados relevantes das diferentes
fontes de dados. O analista deve considerar a tarefa de data mining a ser realizada e construir um
conhecimento acerca das bases de dados e variáveis.
Gabarito: Errado
32- (CESPE - 2017 - TRE-BA - Analista Judiciário – Análise de Sistemas) O agrupamento de dados
no processo de data mining procura, em uma massa de dados que caracterizam uma população de
indivíduos, grupos semelhantes e diferentes. O algoritmo baseado na teoria dos grafos e que dispensa a
definição de protótipos utilizado para segmentar a base de dados em diferentes grupos é denominado
a) K média.
b) K medoides.
c) Apriori.
d) DBSCAN.
e) Árvore geradora mínima.

Aula 02
Comentários:
Questão que define árvore geradora mínima, portanto o Gabarito é letra E.
Vejamos os conceitos dos demais algoritmos:
a) K média (K-means): o algoritmo atribui cada ponto de dados (cliente, evento, objeto, etc.) ao cluster
cujo centro (também chamado centróide) é o mais próximo. O centro é calculado como a média de todos
os pontos no cluster; ou seja, suas coordenadas são a média aritmética para cada dimensão
separadamente em todos os pontos do cluster.
b) K medoides (K-medoids): o elemento que melhor representa o cluster, é definido de acordo com
seus atributos sem que haja muita influência dos valores próximos aos limites do cluster.
c) Apriori: dado um conjunto de itens, o algoritmo tenta encontrar subconjuntos que são comuns a, pelo
menos, um número mínimo de conjuntos.
d) DBSCAN: dado um conjunto de pontos em algum espaço, agrupa pontos que estão intimamente
empacotados (pontos com muitos vizinhos próximos), marcando como pontos atípicos que ficam
sozinhos em regiões de baixa densidade (cujos vizinhos mais próximos estão muito distantes).
Gabarito: Letra E
33- (CESPE - 2017 - SEDF - Analista de Gestão Educacional - Tecnologia da Informação) Com
relação a data mining e data warehouse, julgue o item que se segue.
Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e
diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto
durante processos de mineração de dados.
Comentários:
Assertiva refere-se a tarefa ou técnica de clusterização ou agrupamento.
A análise de cluster é uma ferramenta de análise exploratória de dados para resolver problemas de
classificação. O objetivo é classificar casos (por exemplo, pessoas, coisas, eventos) em grupos ou
clusters, de modo que o grau de associação seja forte entre os membros do mesmo cluster e fraco
entre os membros de diferentes clusters.
Gabarito: Certo

Aula 02
34- (CESPE - 2016 - FUNPRESP-JUD - Analista - Tecnologia da Informação) Julgue o item

subsecutivo, referente às tecnologias de bancos de dados.
Em DataMining, as árvores de decisão podem ser usadas com sistemas de classificação para atribuir
informação de tipo.
Comentários:
As árvores de decisão classificam os dados em um número finito de classes com base nos valores
das variáveis de entrada.
As árvores de decisão são ferramentas que podem ser utilizadas para a classificação dos dados. Ao
percorrer a árvore, a classe ou tipo dos dados será definido. Por exemplo, um conjunto de regras
definido em uma árvore pode definir os tipos de clientes com base em riscos de crédito por meio das
classes “risco fraco”, “risco médio”, e “risco bom”.
Gabarito: Certo
35- (CESPE - 2016 - TCE-PA - Auditor de Controle Externo - Área Informática - Analista de
Sistema) Julgue o item a seguir, em relação a data warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na

extração não trivial de conhecimento previamente desconhecido e potencialmente útil.
Comentários:

em termos de padrões ou regras com base em grandes quantidades de dados. Pode ser entendida
também como o processo não trivial de identificar padrões válidos, novos, potencialmente úteis
e, em última instância, compreensíveis em dados armazenados em bancos de dados estruturados.
Gabarito: Certo
36- (CESPE - 2016 - TRT - 8ª Região (PA e AP) - Analista Judiciário - Tecnologia da Informação)
Acerca de data mining, assinale a opção correta.
a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas,
em coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse
interno da empresa.

Aula 02
b) As redes neurais são um recurso matemático/computacional usado na aplicação de técnicas

estatísticas nos processos de data mining e consistem em utilizar uma massa de dados para criar e
organizar regras de classificação e decisão em formato de diagrama de árvore, que vão classificar seu
comportamento ou estimar resultados futuros.
c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de
conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os
elementos identificados como semelhantes entre si, com base nas características analisadas.
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um

conjunto de informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para
se obter uma previsão mais precisa, devem ser descartadas eventuais sazonalidades no conjunto de
informações.
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados existentes no data
warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data
warehouse.
Comentários:
Vamos analisar as assertivas:
a) Incorreto: a fase de preparação de dados consiste em coletar os dados identificados e prepará-

los para análise. É a etapa que consome mais tempo. No entanto, os dados são coletados de múltiplas
fontes e não somente de um DW interno.
b) Incorreto: item refere-se a árvores de decisão e não a redes neurais. As redes neurais envolvem
o desenvolvimento de estruturas matemáticas (um tanto parecidas com as redes neurais biológicas no
cérebro humano) que têm a capacidade de aprender com experiências passadas apresentadas sob a
forma de conjuntos de dados bem estruturados. As árvores de decisão classificam os dados em um
número finito de classes com base nos valores das variáveis de entrada. As árvores de decisão são
essencialmente uma hierarquia de declarações se-então.
c) Correto: gabarito da questão. Data mining é o processo que usa técnicas estatísticas,
matemáticas e de inteligência artificial para extrair e identificar informações úteis e padrões.
A análise de clusters identifica agrupamentos naturais de coisas baseada em suas características
similares.
d) Incorreto: a análise temporal deve considerar a sazonalidade, pois podem ser identificados
comportamentos que somente ocorrem em determinados períodos.
e) Incorreto: Data mining e OLAP são diferentes. O OLAP é uma abordagem para responder
rapidamente questões ad hoc através da execução de consultas analíticas multidimensionais em
repositórios de dados organizacionais (data warehouses, data marts). O Data Mining é usado para
descrever o processo pelo qual são descobertos padrões em dados.
Gabarito: Letra C

Aula 02
37- (CESPE - 2016 - TCE-SC - Auditor Fiscal de Controle Externo - Informática) Julgue o item
subsecutivo, acerca de mineração de dados.
Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série
de valores existentes obtidos de dados históricos bem como de suposições controladas a respeito das
condições futuras, para prever outros valores e situações que ocorrerão e, assim, planejar e preparar as
ações organizacionais.
Comentários:
O prognóstico ou previsão pode ser realizado com o uso do data mining. Navathe destaca a previsão
como um dos quatro objetivos da mineração de dados, sendo os outros a identificação, a classificação e
a otimização.
Para ser mais assertivo, o prognóstico deve ser realizado com base na lógica de negócios, baseando-
se nos dados históricos para avaliar o comportamento passado da organização em determinadas
situações e realizando suposições de como a organização irá se comportar em situações futuras
semelhantes ou com variações.
Gabarito: Certo
As aglomerações, tipos de informação obtidos por meio da mineração de dados, caracterizam-se por se
ligarem a um único e específico evento, em torno do qual ocorrem várias ações, com produção sistêmica
de informações gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento.
Comentários:
Os clusters não estão relacionados a um único e específico evento, pois os dados de um mesmo
cluster se relacionam com base em suas semelhanças.
As aglomerações ou clusters descrevem as classes a que os membros de uma base de dados pertencem.
O objetivo da análise de clusters é classificar casos (por exemplo, pessoas, coisas, eventos) em
grupos ou clusters, de modo que o grau de associação seja forte entre os membros do mesmo
cluster e fraco entre os membros de diferentes clusters.
Gabarito: Errado

Aula 02
39- (CESPE - 2016 - FUNPRESP-EXE - Especialista - Tecnologia da Informação) Com relação à

forma como os dados são armazenados e manipulados no desenvolvimento de aplicações, julgue o item
a seguir.
Na implementação de mineração de dados (data mining), a utilização da técnica de padrões sequenciais

pode ser útil para a identificação de tendências.
Comentários:
A tarefa de padrões sequenciais busca uma sequência de ações ou eventos. A detecção de padrões
sequenciais é equivalente à detecção de associações entre eventos com certos relacionamentos
temporais. Com base nas sequências de eventos identificadas é possível avaliar as tendências, por
exemplo, se um paciente fuma excessivamente, provavelmente sofrerá com problemas pulmonares.
Gabarito: Certo
40- (CESPE - 2015 - TJ-DFT - Técnico Judiciário - Programação de Sistemas) Julgue o item a seguir,
a respeito de datawarehouse e de datamining.
Em um processo de mineração, durante a etapa de preparação dos dados, são analisados os requisitos
de negócio para consolidar os dados.
Comentários:
Há um equívoco quanto a fase descrita no item. O item descreve a fase de entendimento do negócio
e não a de preparação de dados.
A fase de entendimento do negócio objetiva o entendimento das necessidades gerenciais e das

especificações de objetivos de negócio. Um plano de projeto para busca de conhecimento é
desenvolvido de modo a especificar as pessoas responsáveis por coletar, analisar e reportar dados. Um
orçamento de alto nível pode ser estabelecido.
Na fase de preparação dos dados, o propósito é carregar os dados identificados e prepará-los para
análise por métodos de mineração de dados. A fase de preparação de dados abrange todas as
atividades para construir o conjunto de dados final (dados que serão alimentados na ferramenta de
modelagem) a partir dos dados brutos iniciais.
Gabarito: Errado

Aula 02
41- (CESPE - 2015 - TCU - Auditor Federal de Controle Externo - Conhecimentos Gerais) No que
concerne a data mining (mineração de dados) e big data, julgue o seguinte item.
O uso prático de data mining envolve o emprego de processos, ferramentas, técnicas e métodos
oriundos da matemática, da estatística e da computação, inclusive de inteligência artificial.
Comentários:
A mineração de dados é um processo que utiliza técnicas de estatística, matemática e inteligência

artificial para extrair e identificar informações úteis e subsequentes conhecimentos (ou padrões)
em grandes conjuntos de dados.
Vale ressaltar que a mineração de dados não é uma nova disciplina, mas sim uma nova definição
para o uso de muitas disciplinas. A mineração de dados está bem posicionada na interseção de muitas
disciplinas, incluindo estatística, inteligência artificial, aprendizado de máquinas, ciência de
gestão, sistemas de informação e bancos de dados.
Gabarito: Certo
A finalidade do uso do data mining em uma organização é subsidiar a produção de afirmações

conclusivas acerca do padrão de comportamento exibido por agentes de interesse dessa organização.
Comentários:

em termos de padrões ou regras com base em grandes quantidades de dados. Os gestores das
organizações usam estes padrões, regras, tendências e comportamentos excepcionais para que possam
tomar decisões e agir para otimizar os negócios.
Gabarito: Certo

Aula 02
No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de

data mining para atividades ligadas a marketing.
Comentários:
Uma das características da mineração de dados é justamente a sua aplicação a grandes bases de
dados. Portanto, a assertiva ficaria correta da seguinte forma: No ambiente organizacional, devido à
grande quantidade de dados, não é recomendado o emprego de data mining para atividades ligadas a
marketing.
A mineração de dados é amplamente utilizada em diversos ramos. As pesquisas genéticas,

astronômicas, físicas, médicas e farmacêuticas são bastante auxiliadas com as técnicas de mineração de
dados. No ramo comercial, a mineração pode ser utilizada em diversos setores, como o financeiro,
varejo, marketing e manufatura.
Gabarito: Errado
Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar relacionamentos, padrões
e vínculos significativos presentes em grandes massas documentais registradas em arquivos físicos
(analógicos) e arquivos lógicos (digitais).
Comentários:
O data mining é utilizado para encontrar padrões em grandes bases de dados. Novas ferramentas
sofisticadas ajudam a recuperar informações de arquivos corporativos e registros públicos e
podem extrair dados de bancos não estruturados (ex. bancos do Lotus Notes, textos e intranets
empresariais). No entanto, não há de se falar em análise de dados registrados em arquivos físicos,
pois isto não é possível com ferramentas de data mining. Para realizar análise das informações destes
arquivos físicos através da mineração de dados, estes devem ser primeiramente transformados em
arquivos lógicos por meio de digitalização com reconhecimento de texto e, então, utilizar-se
ferramentas avançadas de mineração de texto para análise.
Gabarito: Errado

Aula 02
45- (CESPE - 2015 - DEPEN - Agente Penitenciário Federal - Área 7) Acerca de datawarehouse e
datamining, julgue o item subsequente.
Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre

informações armazenadas em um grande repositório.
Comentários:
Um dos objetivos do datamining é a classificação dos dados que consiste em particionar os dados de
modo que diferentes classes ou categorias possam ser identificadas com base em combinações de
parâmetros.
O conhecimento descoberto com o uso do data mining pode ser descrito por meio de associação,
classificação, agrupamento, padrões sequenciais e padrões temporais que representam
relacionamentos entre as informações com base em algum critério pré-estabelecido ou definido durante
a própria análise.
Gabarito: Certo
46- (CESPE - 2015 - MEC - Administrador de Banco de Dados) Julgue o item seguinte, referente a
data mining.
Selecionar uma amostra e determinar os conjuntos de itens frequentes dessa amostra para formar a
lista de previsão de subconjunto são as principais características do algoritmo de previsão.
Comentários:
A questão descreve os algoritmos de amostragem utilizados nas regras de associação e não os

algoritmos de previsão. Segundo Navathe, a ideia principal para o algoritmo de amostragem é
selecionar uma amostra pequena e determinar os conjuntos de dados (itemsets) frequentes com base
na amostra.
Gabarito: Errado

Aula 02
data mining.
A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o
comportamento futuro de determinados atributos.
Comentários:
Assertiva conforme o objetivo da predição.
A Predição (ou previsão) busca descrever a natureza de ocorrências futuras de certos eventos
com base nos acontecimentos passados. Difere da adivinhação, pois leva em consideração as
experiências, opiniões e outras informações relevantes na condução da previsão. Dependendo da
natureza da predição, podemos falar em classificação ou regressão.
Gabarito: Certo
data mining.
O conhecimento obtido no processo de data mining pode ser classificado como uma regra de associação
quando, em um conjunto de eventos, há uma hierarquia de tuplas sequenciais.
Comentários:
Questão misturou a classificação com a associação. Uma hierarquia está relacionada às tarefas de
classificação e não de associação.
A associação (ou aprendizagem de regras) visa descobrir relacionamentos entre variáveis em

grandes bancos de dados. Dito de outro modo, as regras de associação correlacionam a presença de um
item com uma faixa de valores para um conjunto de variáveis diverso.
Gabarito: Errado
49- (CESPE - 2015 - MEC - Administrador de Banco de Dados) Acerca de data warehouse (DW),
Business Intelligence (BI) e data mining, julgue o item que se segue.
Situação hipotética: Após o período de inscrição para o vestibular de determinada universidade

pública, foram reunidas informações acerca do perfil dos candidatos, cursos inscritos e concorrências.
Ademais, que, por meio das soluções de BI e DW que integram outros sistemas, foram realizadas
análises para a detecção de relacionamentos sistemáticos entre as informações registradas.

Aula 02
Assertiva: Nessa situação, tais análises podem ser consideradas como data mining, pois agregam valor
às decisões do MEC e sugerem tendências, como, por exemplo, o aumento no número de escolas
privadas e a escolha de determinado curso superior.
Comentários:
Item corretíssimo. A mineração de dados (data mining) refere-se à mineração ou descoberta de

novas informações em termos de padrões ou regras com base em grandes quantidades de dados. Os
gestores das organizações usam estes padrões, regras, tendências e comportamentos excepcionais para
que possam tomar decisões e agir para otimizar os negócios.
Gabarito: Certo
data mining.
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos de biologia evolutiva,
como hereditariedade, recombinação, seleção natural e mutação, para solucionar e agrupar problemas.
Comentários:
Os algoritmos genéticos podem ser usados na mineração de dados tanto para realizar a análise de
clusters quanto para a classificação.
Os algoritmos genéticos são implementados como uma simulação de computador em que uma
população de representações abstratas de solução é selecionada em busca de soluções melhores.
A evolução geralmente se inicia a partir de um conjunto de soluções criado aleatoriamente e é realizada
por meio de gerações. A cada geração, a adaptação de cada solução na população é avaliada, alguns
indivíduos são selecionados para a próxima geração, e recombinados ou mutados para formar uma nova
população. A nova população então é utilizada como entrada para a próxima iteração do algoritmo.
Gabarito: Certo

Aula 02
FCC
51- (FCC - 2020 - AL-AP - Analista Legislativo - Desenvolvedor de Banco de Dados) No contexto
de data mining, considere o caso hipotético a seguir:
Uma financeira possui o histórico de seus clientes e o comportamento destes em relação ao pagamento
de empréstimos contraídos previamente. Existem dois tipos de clientes: adimplentes e inadimplentes.
Estas são as categorias do problema (valores do atributo alvo). Uma aplicação de mining, neste caso,
consiste em descobrir uma função que mapeie corretamente os clientes, a partir de seus dados (valores
dos atributos previsores), em uma destas categorias. Tal função pode ser utilizada para prever o
comportamento de novos clientes que desejem contrair empréstimos junto à financeira. Esta função
pode ser incorporada a um sistema de apoio à decisão que auxilie na filtragem e na concessão de
empréstimos somente a clientes classificados como bons pagadores.
Trata-se de uma atividade denominada
a) sumarização.
b) descoberta de associações.
c) classificação.
d) descoberta de sequências.
e) previsão de séries temporais.
Comentários:
Como as categorias já são pré-definidas, então temos o uso da técnica da classificação.
A classificação (ou indução supervisionada) tem como objetivo criar uma hierarquia de classes
com base em um conjunto existente de eventos ou transações. É a tarefa mais comum de
mineração de dados. Gera-se automaticamente um modelo que pode prever o comportamento futuro
partir da análise dos dados históricos armazenados em um banco de dados. Este modelo consiste em
generalizações sobre os registros, distinguindo-os com base nas classes pré-definidas. Ex.: uma
população pode ser dividida em cinco faixas de possibilidade de crédito com base em um histórico de
Gabarito: Letra C

Aula 02
52- (FCC - 2019 - SANASA Campinas - Analista de Tecnologia da Informação - Suporte de DBA-
Banco de Dados) Considere que a SANASA busca realizar a gestão de recursos hídricos subterrâneos
com base em parâmetros conhecidos que determinam a poluição das águas subterrâneas. Um desses
parâmetros, para exemplificar, seria o nitrato, um indicador de poluição difusa de água subterrânea.
Criando-se regras para realizar o aprendizado supervisionado do sistema de Data Mining utilizando-se
uma certa técnica, chegar-se-á a um resultado que considera os diversos parâmetros para se descobrir
se um certo aquífero tem água potável ou não, comparando-se com uma definição conhecida.
a) Associação.
b) Classificação.
c) Clustering.
d) Regressão.
e) Prediction.
Comentários:
A questão está descrevendo uma situação de aprendizado supervisionado, logo classificação. Outra
forma de identificar é que há comparação com uma definição conhecida, ou seja, as classes são
previamente definidas.
Gabarito: Letra B

Aula 02
53- (FCC - 2019 - TRF - 4ª REGIÃO - Analista Judiciário - Infraestrutura em Tecnologia da

Informação) Um Tribunal pretende analisar fatos (fatores ambientais e perfis profissionais, entre
outros) que esclareçam por que alguns colaboradores se destacam profissionalmente enquanto outros
não se desenvolvem e acabam por se desligar do órgão. Para facilitar essa análise, o Tribunal solicitou
um auxílio tecnológico que indique quais características nos fatos apresentam razões positivas que
justifiquem investimentos mais robustos no treinamento de colaboradores que tendem a se destacar a
médio e longo prazos.
Para tanto, o Analista implantará um processo de análise científica preditiva com base em dados
estruturados, que consiste na obtenção de padrões que expliquem e descrevam tendências futuras,
denominado
a) snowflake.
b) drill over.
c) star schema.
d) slice accross.
e) data mining.
Comentários:

Gabarito: Letra E
54- (FCC - 2019 - SEFAZ-BA - Auditor Fiscal - Administração Tributária - Prova II) Além dos
indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base
nos indicadores mapeados, existem também os controles proativos, que requerem que os gestores os
promovam periodicamente. Uma das técnicas que os gestores podem usar requer que sejam
selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências
e relações que podem ajudar a identificar casos de fraude e corrupção. Relações ocultas entre pessoas,
entidades e eventos são identificadas e as relações suspeitas podem ser encaminhadas para apuração
específica. As anomalias apontadas por esse tipo de técnica não necessariamente indicam a ocorrência

Aula 02
de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a exclusão
da possibilidade de fraude e corrupção e, no caso da não exclusão, uma investigação.
(Adaptado de: TCU - Tribunal de Contas da União)
O texto se refere à técnica de
a) data mart.
b) data warehousing.
c) big data.
d) OLAP.
e) data mining.
Comentários:
Se o gestor está buscando identificar padrões, então está usando data mining.

em termos de padrões ou regras com base em grandes quantidades de dados.
Gabarito: Letra E
55- (FCC - 2019 - SEFAZ-BA - Auditor Fiscal - Administração Tributária - Prova II) “A Secretaria
da Fazenda realizou procedimento que visa estimular os contribuintes paulistas a, voluntariamente,
regularizarem as obrigações tributárias que devem ser transmitidas ao Fisco. Em uma etapa da
operação foram selecionados 48 contribuintes do Regime Periódico de Apuração com R$ 143 milhões
em débitos de ICMS.
Esta ação tem caráter orientador, com o objetivo de alertar as empresas sobre divergências em suas
declarações e indicar a regularização, porém, a ação pode resultar em indicações de empresas de
fachada que apresentaram um conjunto de indícios que sugerem tratar-se de documentos fiscais
inidôneos ou de simulação de operações para gerar créditos falsos de ICMS na apuração mensal do
tributo a recolher.
Para a elaboração da operação autorregularização foram selecionados contribuintes com divergências

nas notas fiscais emitidas entre janeiro a dezembro de 2016 em comparação com as informações
declaradas nas Guias de Informação e Apuração do ICMS do mesmo período."
(Baseado em: https://portal.fazenda.sp.gov.br)

Aula 02
Ao ler esta notícia, uma Auditora Fiscal da área de TI concluiu, corretamente, que o cruzamento e a
análise simultânea de diversas informações, como Nota Fiscal Eletrônica (NF-e), inadimplência,
regularidade no cumprimento de obrigações, porte da empresa, composição do quadro societário, autos
de infração anteriores, localização geográfica e atividade econômica, entre outras,
a) caracterizam-se como operações MOLAP, que usam a base de dados relacional para acessar os dados
do cubo.
b) caracterizam-se como operações HOLAP, que não usam a base de dados relacional para acessar os
dados do cubo.
c) podem ter sido realizados com a ajuda de ferramentas de Data Marts integrados, que não requerem
a construção de um DW.
d) podem ter sido realizados com ferramentas de Data Mining em tempo real, uma vez que os dados do
DW são constantemente atualizados a partir da chave de tempo que indica o dia no qual os dados foram
extraídos dos sistemas transacionais.
e) podem ter sido realizados com a ajuda de ferramentas de Data Mining, que permitem a exploração
de grandes volumes de dados para identificar padrões de comportamento e relacionamentos.
Comentários:
a) Incorreto: caracterizam-se como operações MOLAP ROLAP, que usam a base de dados relacional
para acessar os dados do cubo.
b) Incorreto: caracterizam-se como operações HOLAP ROLAP, que não usam a base de dados relacional
para acessar os dados do cubo.
c) Incorreto: data marts são repositórios departamentais e não ferramentas de análise.
d) Incorreto: não há atualização automática em datawarehouses.
e) Correto: a mineração de dados (data mining) refere-se à mineração ou descoberta de novas

informações em termos de padrões ou regras com base em grandes quantidades de dados.
Gabarito: Letra E

Aula 02
56- (FCC - 2018 - SABESP - Analista de Gestão - Publicidade e Propaganda) O conceito de Data
Mining descreve
a) o uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados
brutos para identificar padrões de comportamentos em determinados públicos.
b) o conjunto de métodos, tecnologias e estratégias para atração voluntária de visitantes, buscando a

conversão consistente de leads em clientes (realização de compra).
c) as atividades coordenadas de modo sistemático por uma determinada organização para

relacionamento com os seus distintos públicos, bem como com outras organizações, sejam públicas,
privadas ou não governamentais.
d) o conjunto de tarefas e processos, organizados e sistematizados, normalmente como uso de uma

plataforma tecnológica (hardware e software, ou até mesmo em cloud computing) para a gestão do
relacionamento com clientes.
e) o trabalho de produzir levantamento sobre os hábitos de consumo de mídia de um determinado

público, identificando horários, tempo gasto etc., associando ao perfil socioeconômico, potencial de
consumo, persuasão etc.
Comentários:
Vamos analisar cada uma das alternativas:
a) Correto: a mineração de dados é um processo que utiliza técnicas de estatística, matemática e

inteligência artificial para extrair e identificar informações úteis e subsequentes conhecimentos
(ou padrões) em grandes conjuntos de dados.
b) Incorreto: o Inbound Marketing se refere a um conjunto de estratégias que visam atrair, de forma
voluntária, os clientes em potencial até a página de uma empresa na internet.
c) Incorreto: Marketing são as atividades sistemáticas de uma organização humana, voltada para a
busca e realização de trocas com seu meio ambiente, visando benefícios específicos.
d) Incorreto: O termo Customer Relationship Management (CRM) se refere a um conjunto de

práticas, estratégias de negócio e tecnologias focadas no cliente que, desde pequenas empresas e
startups até médias e grandes organizações, podem utilizar para gerenciar e analisar as interações com
seus clientes, antecipar suas necessidades e desejos, otimizar a rentabilidade e aumentar as vendas e a
assertividade de suas campanhas de captação de novos clientes.
e) Incorreto: o levantamento sobre os hábitos de consumo de mídia de um determinado público pode

ser realizado com uma pesquisa de mercado.
Gabarito: Letra A

Aula 02
57- (FCC - 2018 - TCE-RS - Auditor Público Externo - Administração Pública ou de Empresas) O
modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases:
a) Estruturação do Negócio, Limpeza dos Dados, Indicação das Métricas, Modelagem, Estimativa e
Exportação dos Dados.
b) Otimização do Negócio, Redução dos Dados, Replicação dos Dados, Modelagem, Importação dos
Dados e Backup.
c) Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e
Implantação.
d) Preparação do Negócio, Replicação dos Dados, Indexação dos Dados, Diagramação do Negócio,
Estimativa e Organização.
e) Otimização do Negócio, Entendimento dos Dados, Indexação dos Dados, Exportação dos Dados,
Organização e Importação dos Dados.
Comentários:
O CRISP-DM é o processo para condução da mineração de dados de forma sistemática composto

por seis etapas que vão desde uma boa compreensão do negócio e da necessidade do projeto de
mineração até a implantação da solução para atender a esta necessidade. A figura a seguir
apresenta as seis etapas do modelo CRISP-DM.
Gabarito: Letra C

Aula 02
58- (FCC - 2018 - DPE-AM - Analista em Gestão Especializado de Defensoria - Analista de Banco
de Dados) Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento
de categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias
estabelecidas. Essa descrição corresponde aos algoritmos de
a) classificação.
b) sumarização.
c) visualização.
d) evolução.
e) detecção de desvios.
Comentários:
Na classificação, a mineração de dados pode particionar os dados de modo que diferentes classes
ou categorias possam ser identificadas com base em combinações de parâmetros. Ex.: segmentação de
clientes.
Gabarito: Letra A
59- (FCC - 2018 - SEFAZ-SC - Auditor-Fiscal da Receita Estadual - Auditoria e Fiscalização (Prova
3)) Atenção: Para responder à questão, considere o seguinte caso hipotético:
Um Auditor da Receita Estadual pretende descobrir, após denúncia, elementos que possam caracterizar e
fundamentar a possível existência de fraudes, tipificadas como sonegação tributária, que vêm ocorrendo
sistematicamente na arrecadação do ICMS. A denúncia é que, frequentemente, caminhões das empresas
Org1, Org2 e Org3 não são adequadamente fiscalizados nos postos de fronteiras. Inobservâncias de
procedimentos podem ser avaliadas pelo curto período de permanência dos caminhões dessas empresas
na operação de pesagem, em relação ao período médio registrado para demais caminhões.
Para caracterizar e fundamentar a existência de possíveis fraudes, o Auditor deverá coletar os registros
diários dos postos por, pelo menos, 1 ano e elaborar demonstrativos para análises mensais, trimestrais e
anuais.

Aula 02
A aplicação de técnicas de mineração de dados (data mining) pode ser de grande valia para o Auditor.
No caso das pesagens, por exemplo, uma ação típica de mining, que é passível de ser tomada com o
auxílio de instrumentos preditivos,
a) quantificar as ocorrências de possíveis pesagens fraudulentas ocorridas durante todo o trimestre que
antecede a data da análise, em alguns postos selecionados, mediante parâmetros comparativos
preestabelecidos.
b) analisar o percentual de ocorrências das menores permanências de caminhões nos postos, no último
ano, em relação ao movimento total.
c) relacionar os postos onde ocorreram, nos últimos seis meses, as menores permanências das empresas
suspeitas e informar o escalão superior para a tomada de decisão.
d) realizar uma abordagem surpresa em determinado posto, com probabilidade significativa de

constatar ocorrência fraudulenta.
e) reportar ao escalão superior as características gerais das pesagens e permanências de todos os

caminhões, nos cinco maiores postos do Estado, no mês que antecede a data de análise.
Comentários:
Uma previsão ou predição busca mostrar como certos atributos dos dados se comportarão no
futuro. Para realizar a previsão (ou prognóstico), a lógica de negócios é utilizada em conjunto com a
mineração de dados.
Assim, vamos analisar qual item está buscando predizer algo:
a) Incorreto: não há previsão, pois há apenas uma quantificação das fraudes do trimestre anterior.
b) Incorreto: não há previsão, pois há apenas uma análise em relação aos dados do último ano.
c) Incorreto: não há previsão, pois há apenas uma análise dos postos em que ocorrência das menores
permanências de empresas suspeitas nos últimos seis meses.
d) Correto: há tentativa de previsão, pois busca avaliar ocorrência futura de fraude. Para escolher o
posto, podem ser usados dados históricos, porém o objetivo é tentar prever certo comportamento.
e) Incorreto: não há previsão, pois há apenas um reporte das características gerais das pesagens e
permanências de caminhões no mês anterior.
Gabarito: Letra D

Aula 02
60- (FCC - 2017 - TST - Analista Judiciário – Análise de Sistemas) Hipoteticamente, um Analista de
Sistemas, trabalhando no Tribunal Superior do Trabalho − TST, se deparou com as seguintes questões:
1. Como o número de processos trabalhistas deste trimestre se compara com o número de processos de
um ano atrás?
2. O que se pode prever para o próximo trimestre com relação ao número de processos trabalhistas?
3. Qual é a tendência do número de processos, medida pela variação percentual?
4. Quem é provável que faça acordo trabalhista nos próximos seis meses?
5. Quais são as características dos casos prováveis de acordos trabalhistas?
Considerando que o Tribunal utiliza o sistema gerenciador de banco de dados Oracle, para responder
as perguntas, o Analista achou adequado o auxílio de dois recursos, cujas descrições encontram-se
abaixo:
I. Fornece dados resumidos e gera cálculos ricos, adequado para ajudar a responder as questões 1, 2 e
3.
II. Descobre padrões ocultos em dados, operando em nível detalhado, adequado para ajudar a responder
as questões 4 e 5.
Os recursos para resolver os problemas de análise de dados referentes às questões apresentadas, que
são descritos em I e II são, correta e respectivamente,
a) OLAP e Data Mining.
b) ETL e ROLAP.
c) Data Mining e SAP R/1.
d) OLTP e OLAP.
e) MOLAP e OLTP.
Comentários:
I. Para gerar dados resumidos podemos usar as operações OLAP. O OLAP é uma abordagem para
responder rapidamente questões ad hoc através da execução de consultas analíticas
multidimensionais em repositórios de dados organizacionais (data warehouses, data marts).
II. Para descobrir padrões em dados usamos data mining. A mineração de dados é entendida como o
processo não trivial de identificar padrões válidos, novos, potencialmente úteis e, em última
instância, compreensíveis em dados armazenados em bancos de dados estruturados.
Gabarito: Letra A

Aula 02
61- (FCC - 2017 - DPE-RS - Analista - Banco de Dados) Uma das técnicas bastante utilizadas em
sistemas de apoio à decisão é o Data Mining, que se constitui em uma técnica
a) para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos,
importantes à aplicação.
b) para se realizar a criptografia inteligente de dados, objetivando a proteção da informação.
c) que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a

disponibilidade de dados.
d) de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho no

armazenamento de dados.
e) de transmissão e recepção de dados que permite a comunicação entre servidores, em tempo real.
Comentários:

Gabarito: Letra A
62- (FCC - 2017 - TRT - 11ª Região (AM e RR) - Técnico Judiciário - Tecnologia da Informação)
Sistemas do tipo I e do tipo II realizam tarefas diferentes, porém complementares. O tipo I é adequado
para atividades como indexação de dados, alocação de custos, análises de séries temporais e análises
“what-if”. Porém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências indutivas,
processo que permite chegar a conclusões genéricas a partir de exemplos específicos, que são uma
característica nativa de sistemas do tipo II. Sistemas do tipo I fornecem uma visão multidimensional de
dados, incluindo suporte a hierarquias. Essa visão de dados é uma forma natural de analisar negócios e
organizações. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, encontrar
padrões e relações entre as informações disponíveis em bancos de dados. Os sistemas do tipo II podem
encontrar informações ocultas nos dados disponíveis, mas é o gestor quem deve atribuir o valor de cada
uma dessas descobertas para a organização.
Os sistemas do tipo I e II são, correta e respectivamente,
a) Data Warehouse e Data Mining.
b) Banco de Dados Multidimensional e Banco de Dados Relacional.

Aula 02
c) Data Mining e Data Warehouse.
d) OLAP e Data Mining.
e) OLAP e Data Warehouse.
Comentários:
I. O OLAP é uma abordagem para responder rapidamente questões ad hoc através da execução
de consultas analíticas multidimensionais em repositórios de dados organizacionais (data
warehouses, data marts). Porém, os sistemas OLAP não têm capacidades para realizar inferências.
II. Para descobrir padrões em dados e realizar inferências usamos data mining. A mineração de dados
é entendida como o processo não trivial de identificar padrões válidos, novos, potencialmente
úteis e, em última instância, compreensíveis em dados armazenados em bancos de dados
estruturados.
Gabarito: Letra D
63- (FCC - 2016 - AL-MS - Técnico de Informática) Um famoso site de vendas sempre envia ao
cliente que acabou de comprar um item X, ou o está analisando, a seguinte frase: Pessoas que
compraram o item X também compraram o Y. Para isso, o site deve estar aplicando a técnica de Data
Mining denominada
a) profiling.
b) coocorrência.
c) regressão múltipla.
d) regressão logística.
e) classificação.
Comentários:
As regras de associação são uma técnica popular para descobrir relacionamentos interessantes
entre variáveis em grandes bancos de dados. As regras de associação permitem a identificação de
grupos de dados que apresentam coocorrência entre si, por exemplo, uma cesta de compras.
Gabarito: Letra B

Aula 02
64- (FCC - 2015 - CNMP - Analista do CNMP - Tecnologia de Informação e Comunicação

Desenvolvimento de Sistemas) Em relação às ferramentas de Data Discovery e os fundamentos de
Data Mining, é correto afirmar:
a) As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos
entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como
redes neurais, algoritmos genéticos e lógica nebulosa, dentre outras.
b) Data Mining é o processo de descobrir conhecimento em banco de dados, que envolve várias etapas.
O KDD – Knowledge Discovery in Database é uma destas etapas, portanto, a mineração de dados é um
conceito que abrange o KDD.
c) A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na busca de relações entre
os dados. De forma geral, existem três tipos de técnicas: Estatísticas, Exploratórias e Intuitivas. Todas
são devidamente experimentadas e validadas para o processo de mineração.
d) Os dados podem ser não estruturados (bancos de dados, CRM, ERP), estruturados (texto,
documentos, arquivos, mídias sociais, cloud) ou uma mistura de ambos (emails, SOA/web services,
RSS). As ferramentas de Data Discovery mais completas possuem conectividade para todas essas
origens de dados de forma segura e controlada.
e) Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são do tipo estruturado.
Existem diversas ferramentas open source e comerciais de Data Discovery. Dentre as open source está
a InfoSphere Data Explorer e entre as comerciais está a Vivisimo da IBM.
Comentários:
Vamos analisar cada uma das alternativas:
a) Correto: Tecnicamente falando, a mineração de dados é um processo que utiliza técnicas de

estatística, matemática e inteligência artificial para extrair e identificar informações úteis e
subsequentes conhecimentos (ou padrões) em grandes conjuntos de dados.
b) Incorreto: Data Mining KDD – Knowledge Discovery in Database é o processo de descobrir

conhecimento em banco de dados, que envolve várias etapas. O KDD – Knowledge Discovery in Database
Data Mining é uma destas etapas, portanto, a mineração de dados o KDD é um conceito que abrange o
KDD a mineração de dados.
c) Incorreto: A etapa de KDD do Data Mining Data Mining do KDD consiste em aplicar técnicas que
auxiliem na busca de relações entre os dados. De forma geral, existem três tipos de técnicas: Estatísticas,
Exploratórias e Intuitivas. Todas são devidamente experimentadas e validadas para o processo de
mineração.
d) Incorreto: Os dados podem ser não estruturados estruturados (bancos de dados, CRM, ERP),
estruturados não estruturados (texto, documentos, arquivos, mídias sociais, cloud) ou uma mistura de

Aula 02
ambos (emails, SOA/web services, RSS). As ferramentas de Data Discovery Data Mining mais completas
possuem conectividade para todas essas origens de dados de forma segura e controlada.
e) Incorreto: Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são do tipo
estruturado não estruturado. Existem diversas ferramentas open source e comerciais de Data
Discovery. Dentre as open source está a InfoSphere Data Explorer e entre as comerciais está a Vivisimo
da IBM.
Gabarito: Letra A
65- (FCC - 2014 - TRF - 3ª REGIÃO - Analista Judiciário - Informática - Banco de Dados) Mineração
de dados é a investigação de relações e padrões globais que existem em grandes bancos de dados, mas
que estão ocultos no grande volume de dados. Com base nas funções que executam, há diferentes
técnicas para a mineração de dados, dentre as quais estão:
I. identificar afinidades existentes entre um conjunto de itens em um dado grupo de registros. Por
exemplo: 75% dos envolvidos em processos judiciais ligados a ataques maliciosos a servidores de dados
também estão envolvidos em processos ligados a roubo de dados sigilosos.
II. identificar sequências que ocorrem em determinados registros. Por exemplo: 32% de pessoas do sexo
feminino após ajuizarem uma causa contra o INSS solicitando nova perícia médica ajuízam uma causa
contra o INSS solicitando ressarcimento monetário.
III. as categorias são definidas antes da análise dos dados. Pode ser utilizada para identificar os atributos
de um determinado grupo que fazem a discriminação entre 3 tipos diferentes, por exemplo, os tipos de
processos judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.
Os tipos de técnicas referenciados em I, II e III, respectivamente, são:
a) I - Padrões sequenciais
II - Redes Neurais
III - Árvore de decisão
b) I - Redes Neurais
II - Árvore de decisão
III - Padrões sequenciais

Aula 02
c) I - Associação
II - Padrões sequenciais
III - Classificação
d) I - Classificação
II - Associação
III - Previsão
e) I - Árvore de decisão
II - Classificação
III - Associação
Comentários:
I. Os padrões de associação podem identificar afinidades existentes entre um conjunto de itens em um

dado grupo de registros. As regras de associação correlacionam a presença de um item com uma faixa
de valores para um conjunto de variáveis diverso.
II. Os padrões sequenciais podem identificar sequências que ocorrem em determinados registros. Os
padrões sequenciais são regras de associação que utilizam relações por meio da sequencia de eventos
ou ações.
III. Na classificação, as categorias são definidas antes da análise dos dados. Na Classificação (ou
indução supervisionada) tem como objetivo criar uma hierarquia de classes com base em um conjunto
existente de eventos ou transações.
Gabarito: Letra C
66- (FCC - 2011 - INFRAERO - Analista de Sistemas - Administrador de Banco de Dados)

Funcionalidade cujo objetivo é encontrar conjuntos de dados que não obedecem ao comportamento ou
modelo dos dados. Uma vez encontrados, podem ser tratados ou descartados para utilização em mining.
Trata-se de
a) descrição.
b) agrupamento.

Aula 02
c) visualização.
d) análise de outliers.
e) análise de associações.
Comentários:
No contexto da mineração de dados, a análise de outliers é uma técnica ou tarefa realizada na análise
de clusters que consiste na identificação dos dados que não apresentam o mesmo comportamento
padrão da maioria. Ex.: identificação de pessoa com renda muito superior aos perfis de renda em
determinada organização.
Gabarito: Letra D
67- (FCC - 2011 - INFRAERO - Analista de Sistemas - Administrador de Banco de Dados) No

âmbito da descoberta do conhecimento (KDD), a visão geral das etapas que constituem o processo KDD
(Fayyad) e que são executadas de forma interativa e iterativa apresenta a seguinte sequência de etapas:
a) seleção, pré-processamento, transformação, data mining e interpretação/avaliação.
b) seleção, transformação, pré-processamento, interpretação/avaliação e data mining.
c) data warehousing, star modeling, ETL, OLAP e data mining.
d) ETL, data warehousing, pré-processamento, transformação e star modeling.
e) OLAP, ETL, star modeling, data mining e interpretação/avaliação.
Comentários:
Segundo Navathe, o processo de descoberta de conhecimento (KDD) compreende seis fases: seleção
de dados, limpeza de dados, enriquecimento, transformação ou codificação de dados, mineração de
dados e o relatório e exibição da informação descoberta. Geralmente, as quatro primeiras fases são
ditas de pré-processamento.
Contudo, essa questão adotou as fases propostas por Figueira, que são:
▪ Seleção: é a etapa de agrupamento(organizado) dos dados

▪ Pré-processamento: neste momento os dados passam por uma adequação. Ao final do processo,
devem possuir o formato correto e não apresentar duplicidade, entrer outras características;
▪ Transformação: é a etapa de armazenamento dos dados de forma a facilitar o usi das técnicas de
Data Mining;

Aula 02
▪ Data Mining: é a principal atividade do conhecimento, aplicando, para este fim, algoritmos de
descoberta de padrões;
▪ Interpretação e avaliação: como o nome diz, esta fase consiste em interpretar os dados gerados
e verificar se possuem alguma validade para o problema proposto.
Gabarito: Letra A
68- (FCC - 2011 - TRT - 14ª Região (RO e AC) - Analista Judiciário - Tecnologia da Informação)
No contexto de DW, é uma categoria de ferramentas de análise denominada open-end e que permite ao
usuário avaliar tendências e padrões não conhecidos entre os dados. Trata-se de
a) slice.
b) star schema.
c) ODS.
d) ETL.
e) data mining.
Comentários:

Gabarito: Letra E
69- (FCC - 2010 - TCE-SP - Agente da Fiscalização Financeira - Informática - Produção e Banco
de Dados) No âmbito dos algoritmos associados ao mining, se houver um banco de dados com um
número potencial pequeno de conjuntos de itens grandes, isto é, uns poucos milhares, então o suporte
para todos eles pode ser testado em uma passagem usando a técnica específica de
a) hierarquização.
b) partição.
c) amostragem.
d) árvore de padrão frequente.
e) séries temporais.

Aula 02
Comentários:
A análise de clusters (análise de agrupamentos ou análise de aglomerações ou análise de

partições) é um método de mineração de dados essencial para classificar itens, eventos ou conceitos
em agrupamentos comuns chamados de clusters.
Gabarito: Letra B
70- (FCC - 2010 - TRF - 4ª REGIÃO - Analista Judiciário - Tecnologia da Informação) Sobre data
mining, é correto afirmar:
a) É o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma

empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados
usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados conseguem determinar
de forma completa e eficiente o valor dos padrões encontrados.
c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam sistematicamente
"simplificados", de forma a desconsiderar aquilo que é genérico e privilegiar aquilo que é específico.
d) É um grande banco de dados voltado para dar suporte necessário nas decisões de usuários finais,
geralmente gerentes e analistas de negócios.
e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a partir de um data
warehouse, onde os dados já estão sem erros, sem duplicidade, são consistentes e habilitam descobertas
abrangentes e precisas.
Comentários:


Gabarito: Letra A

Aula 02
71- (FCC - 2010 - TCM-PA - Técnico em Informática) Especificamente, um data mining onde as
tendências são modeladas conforme o tempo, usando dados conhecidos, e as tendências futuras são
obtidas com base no modelo possui a forma de mining
a) textual.
b) flocos de neve.
c) espacial.
d) estrela.
e) preditivo.
Comentários:
A mineração de dados constrói modelos para identificar padrões entre os atributos apresentados no
conjunto de dados, usando dados existentes e relevantes. Os modelos são as representações
matemáticas (relações entre as variáveis) que identificam os padrões entre os atributos dos objetos
descritos no conjunto de dados. Alguns desses padrões são explicativos (explicando as inter-relações e
afinidades entre os atributos), e outros são preditivos (prevendo os valores futuros de certos
atributos).
A Predição (ou previsão) busca descrever a natureza de ocorrências futuras de certos eventos
com base nos acontecimentos passados. Difere da adivinhação, pois leva em consideração as
experiências, opiniões e outras informações relevantes na condução da previsão. Dependendo da
natureza da predição, podemos falar em classificação ou regressão.
Gabarito: Letra E
de Dados) NÃO é um objetivo da mineração de dados (mining), na visão dos diversos autores,
a) garantir a não redundância nos bancos transacionais.
b) conhecer o comportamento de certos atributos no futuro.
c) possibilitar a análise de determinados padrões de eventos.
d) categorizar perfis individuais ou coletivos de interesse comercial.
e) apoiar a otimização do uso de recursos limitados e/ou maximizar variáveis de resultado para a
empresa.

Aula 02
Comentários:

em termos de padrões ou regras com base em grandes quantidades de dados.
Segundo Navathe, de um modo geral, estes objetivos se encontram nas seguintes classes:
❖ Previsão: a mineração de dados pode mostrar como certos atributos dos dados se
comportarão no futuro. Para realizar a previsão (ou prognóstico), a lógica de negócios é
utilizada em conjunto com a mineração de dados. Ex.: previsão de compras sob certos descontos.
❖ Identificação: os padrões de dados podem ser usados para identificar a existência de um
item, um evento ou uma atividade. Ex.: intrusos tentando quebrar um sistema.
❖ Classificação: a mineração de dados pode particionar os dados de modo que diferentes
classes ou categorias possam ser identificadas com base em combinações de parâmetros. Ex.:
segmentação de clientes.
❖ Otimização: um objeto relevante da mineração de dados pode ser otimizar o uso de recursos
limitados, como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como
vendas ou lucros sob determinadas restrições.
Vamos avaliar cada um dos itens:
a) Incorreto: garantir a não redundância nos bancos transacionais é objetivo da normalização.
b) Correto: Previsão.
c) Correto: Identificação.
d) Correto: Classificação.
e) Correto: Otimização.
Gabarito: Letra A
de Dados) A data mining apoia o conhecimento indutivo que pode ser representado por
I. Lógica proposicional.
II. Árvores de decisão.
III. Redes neurais.

Aula 02
IV. Redes semânticas.
Está correto o que consta em
a) I e III, apenas.
b) II e III, apenas.
c) II, III e IV, apenas.
d) I, II e IV, apenas.
e) I, II, III e IV.
Comentários:
Segundo Navathe, o Data Mining apoia o conhecimento indutivo, que descobre novas regras e padrões
nos dados fornecidos. O conhecimento pode ser representado de muitas formas. Em um senso não
estruturado, pode ser representado por regras ou por lógica proposicional. Em uma forma
estruturada, pode ser representado por árvores de decisão, redes semânticas, redes neurais ou
hierarquias de classes ou frames.
Para complementar, vejamos um pouco sobre cada um dos itens:
I. Correto: A lógica proposicional é um sistema formal no qual as fórmulas representam proposições

que podem ser formadas pela combinação de proposições atômicas usando conectivos lógicos e um
sistema de regras de derivação, que permite que certas fórmulas sejam estabelecidas como "teoremas"
do sistema formal.
II. Correto: As árvores de decisão classificam os dados em um número finito de classes com base
nos valores das variáveis de entrada. As árvores de decisão são essencialmente uma hierarquia de
declarações se-então e, portanto, são significativamente mais rápidas do que as redes neurais.
III. Correto: As redes neurais apresentam como principal desvantagem a dificuldade de se

interpretar as previsões feitas. Além disso, as redes neurais tendem a necessitar de treinamento
considerável, que demanda maior tempo à medida que aumenta a quantidade de dados.
IV. Correto: Uma rede semântica representa o conhecimento como um grafo direcionado no qual os
vértices representam conceitos, e as arestas representam relações semânticas entre os conceitos.
Gabarito: Letra E

Aula 02
de Dados) Uma das abordagens de mining define que, se uma regra de classificação é considerada uma
função sobre variáveis que as mapeia em uma classe destino, a regra é chamada
a) categorização.
b) Apriori.
c) algoritmo genético.
d) regressão.
e) minimização.
Comentários:
Vamos avaliar cada uma das alternativas:
a) Incorreto: A mineração de dados pode particionar os dados de modo que diferentes classes ou
categorias possam ser identificadas com base em combinações de parâmetros. Ex.: segmentação de
clientes.
b) Incorreto: Apriori é o algoritmo mais utilizado para descobrir regras de associação. Dado um
conjunto de conjuntos de itens (por exemplo, conjuntos de transações de varejo com a listagem de
itens individuais adquiridos), o algoritmo tenta encontrar subconjuntos comuns a pelo menos um
número mínimo de conjuntos de itens (isto é, cumpre com um suporte mínimo).
c) Incorreto: Os algoritmos genéticos são implementados como uma simulação de computador em

que uma população de representações abstratas de solução é selecionada em busca de soluções
melhores.
d) Correto: A regressão é uma aplicação especial da regra de classificação, que ocorre quando
esta regra de classificação é uma função sobre as variáveis mapeando essas variáveis em uma
variável de classe de destino. Ex.: identificar a probabilidade de um paciente sobreviver com base em
variáveis como grau de infecção ou idade.
e) Incorreto: Minimização não está relacionada com a mineração de dados.
Gabarito: Letra D

Aula 02
de Dados) Considere uma dada população de eventos ou novos itens que podem ser particionados
(segmentados) em conjuntos de elementos similares, tal como, por exemplo, uma população de dados
sobre uma doença que pode ser dividida em grupos baseados na similaridade dos efeitos colaterias
produzidos. Como um dos modos de descrever o conhecimento descoberto durante a data mining este
é chamado de
a) associação.
b) otimização.
c) classificação.
d) clustering.
e) temporização.
Comentários:
Vamos avaliar cada uma das alternativas:
a) Incorreto: A associação visa descobrir relacionamentos entre variáveis em grandes bancos de

dados. Dito de outro modo, as regras de associação correlacionam a presença de um item com uma faixa
de valores para um conjunto de variáveis diverso.
b) Incorreto: Um objetivo relevante da mineração de dados pode ser otimizar o uso de recursos
limitados, como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou
lucros sob determinadas restrições.
c) Incorreto: A classificação tem como objetivo criar uma hierarquia de classes com base em um
conjunto existente de eventos ou transações. Este modelo consiste em generalizações sobre os
registros, distinguindo-os com base nas classes pré-definidas.
d) Correto: O clustering é a partição de uma coleção de coisas, eventos ou itens em segmentos cujos
membros são características semelhantes. Ao contrário da classificação, no agrupamento, as classes
são previamente desconhecidas.
e) Incorreto: A temporização não está relacionada com a mineração de dados.
Gabarito: Letra D

Aula 02
LISTA DE QUESTÕES
CEBRASPE/CESPE

de Dados) Julgue o item a seguir, relativos a conceitos de modelagem dimensional.
Em um processo de modelagem dimensional, a operação de merge/pruge agrega informações das

dimensões para diminuir a tabela de fatos.

de Dados) Acerca de conceitos, premissas e aplicações de big data, julgue o item subsequente.

A análise de regressão em mineração de dados tem como objetivos a sumariação, a predição, o controle
e a estimação.


A técnica de agregação na mineração de dados atua em conjunto de registros que tenham sido
previamente classificados.

Aula 02



Mecanismos de busca utilizam mineração de textos para apresentar ao usuário os resultados de suas
pesquisas, de modo que ambos os conceitos se equivalem.


mesmo momento.


A mineração de textos utiliza técnicas diferentes da mineração de dados, tendo em vista que os textos
representam um tipo específico de dado.


Aula 02

Na etapa de mineração do data mining, ocorre a seleção dos conjuntos de dados que serão utilizados no
processo de mining.


Na análise hierárquica de agrupamentos, é possível realocar um elemento que tenha sido alocado
incorretamente no início do processo.



Aula 02
17- (CESPE - 2019 - TCE-RO - Auditor de Controle Externo - Administração) Série temporal
consiste em
a) estrutura de dados qualitativos medidos negativamente por padrão.
b) estrutura de dados que podem ser medidos sem métrica definida.
c) estrutura de dados que rastreiam mudanças nos valores de uma métrica ao longo do tempo.
d) estrutura em que os dados podem ser marcados como verdadeiros ou falsos por padrão.
e) estrutura de dados numéricos que têm um número infinito de valores possíveis.
18- (CESPE / CEBRASPE - 2019 - TJ-AM - Assistente Judiciário - Suporte ao Usuário de

Informática) A respeito de data warehouse e data mining, julgue o item que se segue.
A técnica machine learning pode ser utilizada para apoiar um processo de data mining.

de Dados) Acerca de visualização e análise exploratória de dados, julgue o item seguinte.
20- (CESPE / CEBRASPE - 2019 - TJ-AM - Analista Judiciário - Analista de Sistemas) A respeito de
bancos de dados relacionais, julgue o item a seguir.
Em sistemas de suporte à decisão, uma das abordagens da árvore de decisão é a predição, em que são
criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.
21- (CESPE - 2018 - FUB - Técnico de Tecnologia da Informação) Julgue o item a seguir, a respeito
de data mining e OLAP.
No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa
de valores de um outro conjunto de variáveis.

Aula 02
22- (CESPE - 2018 - TCE-MG - Analista de Controle Externo - Ciência da Computação) Na técnica
de árvore de decisão em data mining, é empregada a abordagem denominada
a) análise de volumetria.
b) combinação de variáveis.
c) estratificação.
d) avaliação de dados.
e) percepção.
A mineração de dados se caracteriza especialmente pela busca de informações em grandes volumes de

dados, tanto estruturados quanto não estruturados, alicerçados no conceito dos 4V’s: volume de
mineração, variedade de algoritmos, velocidade de aprendizado e veracidade dos padrões.
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados,
que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina.
25- (CESPE - 2018 - Polícia Federal - Agente de Polícia Federal) Julgue o item que segue, relativo a
noções de mineração de dados, big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos,
potencialmente úteis e, ao final, compreensíveis.

Aula 02
26- (CESPE - 2018 - IPHAN - Analista I - Área 7) Julgue o item que se segue, a respeito de tecnologias
de sistemas de informação.
Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, em que
um agente externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus
correspondentes padrões de saída, comparando-se a resposta fornecida pelo algoritmo com a resposta
esperada.
27- (CESPE - 2018 - TCM-BA - Auditor Estadual de Controle Externo) Assinale a opção correta a
respeito do CRISP-DM.
a) CRISP-DM é uma suíte de ferramentas proprietárias que vem se tornando um padrão da indústria
para mineração de dados, uma vez que fornece um plano completo e tecnologias para a realização de
um projeto de mineração de dados.
b) A verificação da qualidade dos dados é uma atividade da fase de entendimento dos dados.
c) Durante a fase de preparação dos dados, é realizado um inventário de requisitos, suposições e

restrições de recursos.
d) Na fase de avaliação dos dados, são realizadas as atividades de identificar valores especiais dos dados
e catalogar seu significado.
e) Na fase de preparação dos dados, são realizadas as atividades de analisar o potencial de implantação
de cada resultado e estimar o potencial de melhoria do processo atual.
28- (CESPE - 2018 - TCM-BA - Auditor Estadual de Controle Externo) A respeito das técnicas e(ou)
métodos de mineração de dados, assinale a opção correta.
a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam

coocorrência.
b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores
associados aos dados em um ou mais valores reais.
c) A regressão ou predição promove o aprendizado de uma função que pode ser usada para mapear
dados em uma de várias classes discretas definidas previamente, bem como encontrar tendências que
possam ser usadas para entender e explorar padrões de comportamento dos dados.
d) As regras de associação identificam grupos de dados, em que os dados têm características

semelhantes aos do mesmo grupo e os grupos têm características diferentes entre si.

Aula 02
e) Os métodos de classificação supervisionada podem ser embasados em separabilidade (entropia),

utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector
machines).
29- (CESPE - 2018 - STJ - Técnico Judiciário - Desenvolvimento de Sistemas) Julgue o item que se
segue, acerca de data mining e data warehouse.
O processo de mineração de dados está intrinsecamente ligado às dimensões e a fato, tendo em vista
que, para a obtenção de padrões úteis e relevantes, é necessário que esse processo seja executado
dentro dos data warehouses.
30- (CESPE - 2017 - TCE-PE - Analista de Controle Externo - Auditoria de Contas Públicas) Em
relação à análise de agrupamentos (clusterização) em mineração de dados, julgue o item seguinte.
O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação
pertence ao grupo mais próximo da média.
31- (CESPE - 2017 - TCE-PE - Auditor de Controle Externo - Auditoria de Contas Públicas) Julgue
o seguinte item, que se refere a CRISP-DM (Cross-Industry Standard Process of Data Mining).
Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a

identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes.
32- (CESPE - 2017 - TRE-BA - Analista Judiciário – Análise de Sistemas) O agrupamento de dados
no processo de data mining procura, em uma massa de dados que caracterizam uma população de
indivíduos, grupos semelhantes e diferentes. O algoritmo baseado na teoria dos grafos e que dispensa a
definição de protótipos utilizado para segmentar a base de dados em diferentes grupos é denominado
a) K média.
b) K medoides.
c) Apriori.
d) DBSCAN.
e) Árvore geradora mínima.

Aula 02
33- (CESPE - 2017 - SEDF - Analista de Gestão Educacional - Tecnologia da Informação) Com
relação a data mining e data warehouse, julgue o item que se segue.
Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e
diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto
durante processos de mineração de dados.
34- (CESPE - 2016 - FUNPRESP-JUD - Analista - Tecnologia da Informação) Julgue o item

subsecutivo, referente às tecnologias de bancos de dados.
Em DataMining, as árvores de decisão podem ser usadas com sistemas de classificação para atribuir
informação de tipo.
35- (CESPE - 2016 - TCE-PA - Auditor de Controle Externo - Área Informática - Analista de
Sistema) Julgue o item a seguir, em relação a data warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste na

extração não trivial de conhecimento previamente desconhecido e potencialmente útil.
36- (CESPE - 2016 - TRT - 8ª Região (PA e AP) - Analista Judiciário - Tecnologia da Informação)
Acerca de data mining, assinale a opção correta.
a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas,
em coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse
interno da empresa.
b) As redes neurais são um recurso matemático/computacional usado na aplicação de técnicas

estatísticas nos processos de data mining e consistem em utilizar uma massa de dados para criar e
organizar regras de classificação e decisão em formato de diagrama de árvore, que vão classificar seu
comportamento ou estimar resultados futuros.
c) As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de
conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os
elementos identificados como semelhantes entre si, com base nas características analisadas.
d) As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um

conjunto de informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para
se obter uma previsão mais precisa, devem ser descartadas eventuais sazonalidades no conjunto de
informações.

Aula 02
e) Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os dados existentes no data
warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data
warehouse.
Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série
de valores existentes obtidos de dados históricos bem como de suposições controladas a respeito das
condições futuras, para prever outros valores e situações que ocorrerão e, assim, planejar e preparar as
ações organizacionais.
As aglomerações, tipos de informação obtidos por meio da mineração de dados, caracterizam-se por se
ligarem a um único e específico evento, em torno do qual ocorrem várias ações, com produção sistêmica
de informações gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento.
39- (CESPE - 2016 - FUNPRESP-EXE - Especialista - Tecnologia da Informação) Com relação à

forma como os dados são armazenados e manipulados no desenvolvimento de aplicações, julgue o item
a seguir.
Na implementação de mineração de dados (data mining), a utilização da técnica de padrões sequenciais

pode ser útil para a identificação de tendências.
40- (CESPE - 2015 - TJ-DFT - Técnico Judiciário - Programação de Sistemas) Julgue o item a seguir,
a respeito de datawarehouse e de datamining.
Em um processo de mineração, durante a etapa de preparação dos dados, são analisados os requisitos
de negócio para consolidar os dados.

Aula 02
O uso prático de data mining envolve o emprego de processos, ferramentas, técnicas e métodos
oriundos da matemática, da estatística e da computação, inclusive de inteligência artificial.
A finalidade do uso do data mining em uma organização é subsidiar a produção de afirmações

conclusivas acerca do padrão de comportamento exibido por agentes de interesse dessa organização.
No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de

data mining para atividades ligadas a marketing.
Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar relacionamentos, padrões
e vínculos significativos presentes em grandes massas documentais registradas em arquivos físicos
(analógicos) e arquivos lógicos (digitais).
45- (CESPE - 2015 - DEPEN - Agente Penitenciário Federal - Área 7) Acerca de datawarehouse e
datamining, julgue o item subsequente.
Os objetivos do datamining incluem identificar os tipos de relacionamentos que se estabelecem entre

informações armazenadas em um grande repositório.
data mining.
Selecionar uma amostra e determinar os conjuntos de itens frequentes dessa amostra para formar a
lista de previsão de subconjunto são as principais características do algoritmo de previsão.

Aula 02
data mining.
A predição em algoritmos de data mining objetiva modelar funções sobre valores para apresentar o
comportamento futuro de determinados atributos.
data mining.
O conhecimento obtido no processo de data mining pode ser classificado como uma regra de associação
quando, em um conjunto de eventos, há uma hierarquia de tuplas sequenciais.
49- (CESPE - 2015 - MEC - Administrador de Banco de Dados) Acerca de data warehouse (DW),
Business Intelligence (BI) e data mining, julgue o item que se segue.
Situação hipotética: Após o período de inscrição para o vestibular de determinada universidade

pública, foram reunidas informações acerca do perfil dos candidatos, cursos inscritos e concorrências.
Ademais, que, por meio das soluções de BI e DW que integram outros sistemas, foram realizadas
análises para a detecção de relacionamentos sistemáticos entre as informações registradas.
Assertiva: Nessa situação, tais análises podem ser consideradas como data mining, pois agregam valor
às decisões do MEC e sugerem tendências, como, por exemplo, o aumento no número de escolas
privadas e a escolha de determinado curso superior.
data mining.
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos de biologia evolutiva,
como hereditariedade, recombinação, seleção natural e mutação, para solucionar e agrupar problemas.

Aula 02
FCC
51- (FCC - 2020 - AL-AP - Analista Legislativo - Desenvolvedor de Banco de Dados) No contexto
de data mining, considere o caso hipotético a seguir:
Uma financeira possui o histórico de seus clientes e o comportamento destes em relação ao pagamento
de empréstimos contraídos previamente. Existem dois tipos de clientes: adimplentes e inadimplentes.
Estas são as categorias do problema (valores do atributo alvo). Uma aplicação de mining, neste caso,
consiste em descobrir uma função que mapeie corretamente os clientes, a partir de seus dados (valores
dos atributos previsores), em uma destas categorias. Tal função pode ser utilizada para prever o
comportamento de novos clientes que desejem contrair empréstimos junto à financeira. Esta função
pode ser incorporada a um sistema de apoio à decisão que auxilie na filtragem e na concessão de
empréstimos somente a clientes classificados como bons pagadores.
Trata-se de uma atividade denominada
a) sumarização.
b) descoberta de associações.
c) classificação.
d) descoberta de sequências.
e) previsão de séries temporais.
52- (FCC - 2019 - SANASA Campinas - Analista de Tecnologia da Informação - Suporte de DBA-
Banco de Dados) Considere que a SANASA busca realizar a gestão de recursos hídricos subterrâneos
com base em parâmetros conhecidos que determinam a poluição das águas subterrâneas. Um desses
parâmetros, para exemplificar, seria o nitrato, um indicador de poluição difusa de água subterrânea.
Criando-se regras para realizar o aprendizado supervisionado do sistema de Data Mining utilizando-se
uma certa técnica, chegar-se-á a um resultado que considera os diversos parâmetros para se descobrir
se um certo aquífero tem água potável ou não, comparando-se com uma definição conhecida.
a) Associação.
b) Classificação.
c) Clustering.

Aula 02
d) Regressão.
e) Prediction.
53- (FCC - 2019 - TRF - 4ª REGIÃO - Analista Judiciário - Infraestrutura em Tecnologia da

Informação) Um Tribunal pretende analisar fatos (fatores ambientais e perfis profissionais, entre
outros) que esclareçam por que alguns colaboradores se destacam profissionalmente enquanto outros
não se desenvolvem e acabam por se desligar do órgão. Para facilitar essa análise, o Tribunal solicitou
um auxílio tecnológico que indique quais características nos fatos apresentam razões positivas que
justifiquem investimentos mais robustos no treinamento de colaboradores que tendem a se destacar a
médio e longo prazos.
Para tanto, o Analista implantará um processo de análise científica preditiva com base em dados
estruturados, que consiste na obtenção de padrões que expliquem e descrevam tendências futuras,
denominado
a) snowflake.
b) drill over.
c) star schema.
d) slice accross.
e) data mining.
54- (FCC - 2019 - SEFAZ-BA - Auditor Fiscal - Administração Tributária - Prova II) Além dos
indicadores reativos que, uma vez implantados, automaticamente detectam as ocorrências com base
nos indicadores mapeados, existem também os controles proativos, que requerem que os gestores os
promovam periodicamente. Uma das técnicas que os gestores podem usar requer que sejam
selecionadas, exploradas e modeladas grandes quantidades de dados para revelar padrões, tendências
e relações que podem ajudar a identificar casos de fraude e corrupção. Relações ocultas entre pessoas,
entidades e eventos são identificadas e as relações suspeitas podem ser encaminhadas para apuração
específica. As anomalias apontadas por esse tipo de técnica não necessariamente indicam a ocorrência
de fraude e corrupção, mas eventos singulares que merecem avaliação individualizada para a exclusão
da possibilidade de fraude e corrupção e, no caso da não exclusão, uma investigação.
(Adaptado de: TCU - Tribunal de Contas da União)
O texto se refere à técnica de

Aula 02
a) data mart.
b) data warehousing.
c) big data.
d) OLAP.
e) data mining.
55- (FCC - 2019 - SEFAZ-BA - Auditor Fiscal - Administração Tributária - Prova II) “A Secretaria
da Fazenda realizou procedimento que visa estimular os contribuintes paulistas a, voluntariamente,
regularizarem as obrigações tributárias que devem ser transmitidas ao Fisco. Em uma etapa da
operação foram selecionados 48 contribuintes do Regime Periódico de Apuração com R$ 143 milhões
em débitos de ICMS.
Esta ação tem caráter orientador, com o objetivo de alertar as empresas sobre divergências em suas
declarações e indicar a regularização, porém, a ação pode resultar em indicações de empresas de
fachada que apresentaram um conjunto de indícios que sugerem tratar-se de documentos fiscais
inidôneos ou de simulação de operações para gerar créditos falsos de ICMS na apuração mensal do
tributo a recolher.
Para a elaboração da operação autorregularização foram selecionados contribuintes com divergências

nas notas fiscais emitidas entre janeiro a dezembro de 2016 em comparação com as informações
declaradas nas Guias de Informação e Apuração do ICMS do mesmo período."
(Baseado em: https://portal.fazenda.sp.gov.br)
Ao ler esta notícia, uma Auditora Fiscal da área de TI concluiu, corretamente, que o cruzamento e a
análise simultânea de diversas informações, como Nota Fiscal Eletrônica (NF-e), inadimplência,
regularidade no cumprimento de obrigações, porte da empresa, composição do quadro societário, autos
de infração anteriores, localização geográfica e atividade econômica, entre outras,
a) caracterizam-se como operações MOLAP, que usam a base de dados relacional para acessar os dados
do cubo.
b) caracterizam-se como operações HOLAP, que não usam a base de dados relacional para acessar os
dados do cubo.
c) podem ter sido realizados com a ajuda de ferramentas de Data Marts integrados, que não requerem
a construção de um DW.

Aula 02
d) podem ter sido realizados com ferramentas de Data Mining em tempo real, uma vez que os dados do
DW são constantemente atualizados a partir da chave de tempo que indica o dia no qual os dados foram
extraídos dos sistemas transacionais.
e) podem ter sido realizados com a ajuda de ferramentas de Data Mining, que permitem a exploração
de grandes volumes de dados para identificar padrões de comportamento e relacionamentos.
56- (FCC - 2018 - SABESP - Analista de Gestão - Publicidade e Propaganda) O conceito de Data
Mining descreve
a) o uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados
brutos para identificar padrões de comportamentos em determinados públicos.
b) o conjunto de métodos, tecnologias e estratégias para atração voluntária de visitantes, buscando a

conversão consistente de leads em clientes (realização de compra).
c) as atividades coordenadas de modo sistemático por uma determinada organização para

relacionamento com os seus distintos públicos, bem como com outras organizações, sejam públicas,
privadas ou não governamentais.
d) o conjunto de tarefas e processos, organizados e sistematizados, normalmente como uso de uma

plataforma tecnológica (hardware e software, ou até mesmo em cloud computing) para a gestão do
relacionamento com clientes.
e) o trabalho de produzir levantamento sobre os hábitos de consumo de mídia de um determinado

público, identificando horários, tempo gasto etc., associando ao perfil socioeconômico, potencial de
consumo, persuasão etc.
57- (FCC - 2018 - TCE-RS - Auditor Público Externo - Administração Pública ou de Empresas) O
modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases:
a) Estruturação do Negócio, Limpeza dos Dados, Indicação das Métricas, Modelagem, Estimativa e
Exportação dos Dados.
b) Otimização do Negócio, Redução dos Dados, Replicação dos Dados, Modelagem, Importação dos
Dados e Backup.
c) Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e
Implantação.

Aula 02
d) Preparação do Negócio, Replicação dos Dados, Indexação dos Dados, Diagramação do Negócio,
Estimativa e Organização.
e) Otimização do Negócio, Entendimento dos Dados, Indexação dos Dados, Exportação dos Dados,
Organização e Importação dos Dados.
58- (FCC - 2018 - DPE-AM - Analista em Gestão Especializado de Defensoria - Analista de Banco
de Dados) Dentre os algoritmos utilizados em data mining, há um algoritmo que visa o estabelecimento
de categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias
estabelecidas. Essa descrição corresponde aos algoritmos de
a) classificação.
b) sumarização.
c) visualização.
d) evolução.
e) detecção de desvios.
59- (FCC - 2018 - SEFAZ-SC - Auditor-Fiscal da Receita Estadual - Auditoria e Fiscalização (Prova
3)) Atenção: Para responder à questão, considere o seguinte caso hipotético:
Um Auditor da Receita Estadual pretende descobrir, após denúncia, elementos que possam caracterizar e
fundamentar a possível existência de fraudes, tipificadas como sonegação tributária, que vêm ocorrendo
sistematicamente na arrecadação do ICMS. A denúncia é que, frequentemente, caminhões das empresas
Org1, Org2 e Org3 não são adequadamente fiscalizados nos postos de fronteiras. Inobservâncias de
procedimentos podem ser avaliadas pelo curto período de permanência dos caminhões dessas empresas
na operação de pesagem, em relação ao período médio registrado para demais caminhões.
Para caracterizar e fundamentar a existência de possíveis fraudes, o Auditor deverá coletar os registros
diários dos postos por, pelo menos, 1 ano e elaborar demonstrativos para análises mensais, trimestrais e
anuais.
A aplicação de técnicas de mineração de dados (data mining) pode ser de grande valia para o Auditor.
No caso das pesagens, por exemplo, uma ação típica de mining, que é passível de ser tomada com o
auxílio de instrumentos preditivos,

Aula 02
a) quantificar as ocorrências de possíveis pesagens fraudulentas ocorridas durante todo o trimestre que
antecede a data da análise, em alguns postos selecionados, mediante parâmetros comparativos
preestabelecidos.
b) analisar o percentual de ocorrências das menores permanências de caminhões nos postos, no último
ano, em relação ao movimento total.
c) relacionar os postos onde ocorreram, nos últimos seis meses, as menores permanências das empresas
suspeitas e informar o escalão superior para a tomada de decisão.
d) realizar uma abordagem surpresa em determinado posto, com probabilidade significativa de

constatar ocorrência fraudulenta.
e) reportar ao escalão superior as características gerais das pesagens e permanências de todos os

caminhões, nos cinco maiores postos do Estado, no mês que antecede a data de análise.
60- (FCC - 2017 - TST - Analista Judiciário – Análise de Sistemas) Hipoteticamente, um Analista de
Sistemas, trabalhando no Tribunal Superior do Trabalho − TST, se deparou com as seguintes questões:
1. Como o número de processos trabalhistas deste trimestre se compara com o número de processos de
um ano atrás?
2. O que se pode prever para o próximo trimestre com relação ao número de processos trabalhistas?
3. Qual é a tendência do número de processos, medida pela variação percentual?
4. Quem é provável que faça acordo trabalhista nos próximos seis meses?
5. Quais são as características dos casos prováveis de acordos trabalhistas?
Considerando que o Tribunal utiliza o sistema gerenciador de banco de dados Oracle, para responder
as perguntas, o Analista achou adequado o auxílio de dois recursos, cujas descrições encontram-se
abaixo:
I. Fornece dados resumidos e gera cálculos ricos, adequado para ajudar a responder as questões 1, 2 e
3.
II. Descobre padrões ocultos em dados, operando em nível detalhado, adequado para ajudar a responder
as questões 4 e 5.
Os recursos para resolver os problemas de análise de dados referentes às questões apresentadas, que
são descritos em I e II são, correta e respectivamente,
a) OLAP e Data Mining.
b) ETL e ROLAP.

Aula 02
c) Data Mining e SAP R/1.
d) OLTP e OLAP.
e) MOLAP e OLTP.
61- (FCC - 2017 - DPE-RS - Analista - Banco de Dados) Uma das técnicas bastante utilizadas em
sistemas de apoio à decisão é o Data Mining, que se constitui em uma técnica
a) para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos,
importantes à aplicação.
b) para se realizar a criptografia inteligente de dados, objetivando a proteção da informação.
c) que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a

disponibilidade de dados.
d) de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho no

armazenamento de dados.
e) de transmissão e recepção de dados que permite a comunicação entre servidores, em tempo real.
62- (FCC - 2017 - TRT - 11ª Região (AM e RR) - Técnico Judiciário - Tecnologia da Informação)
Sistemas do tipo I e do tipo II realizam tarefas diferentes, porém complementares. O tipo I é adequado
para atividades como indexação de dados, alocação de custos, análises de séries temporais e análises
“what-if”. Porém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências indutivas,
processo que permite chegar a conclusões genéricas a partir de exemplos específicos, que são uma
característica nativa de sistemas do tipo II. Sistemas do tipo I fornecem uma visão multidimensional de
dados, incluindo suporte a hierarquias. Essa visão de dados é uma forma natural de analisar negócios e
organizações. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, encontrar
padrões e relações entre as informações disponíveis em bancos de dados. Os sistemas do tipo II podem
encontrar informações ocultas nos dados disponíveis, mas é o gestor quem deve atribuir o valor de cada
uma dessas descobertas para a organização.
Os sistemas do tipo I e II são, correta e respectivamente,
a) Data Warehouse e Data Mining.
b) Banco de Dados Multidimensional e Banco de Dados Relacional.
c) Data Mining e Data Warehouse.

Aula 02
d) OLAP e Data Mining.
e) OLAP e Data Warehouse.
63- (FCC - 2016 - AL-MS - Técnico de Informática) Um famoso site de vendas sempre envia ao
cliente que acabou de comprar um item X, ou o está analisando, a seguinte frase: Pessoas que
compraram o item X também compraram o Y. Para isso, o site deve estar aplicando a técnica de Data
Mining denominada
a) profiling.
b) coocorrência.
c) regressão múltipla.
d) regressão logística.
e) classificação.
64- (FCC - 2015 - CNMP - Analista do CNMP - Tecnologia de Informação e Comunicação

Desenvolvimento de Sistemas) Em relação às ferramentas de Data Discovery e os fundamentos de
Data Mining, é correto afirmar:
a) As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos
entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como
redes neurais, algoritmos genéticos e lógica nebulosa, dentre outras.
b) Data Mining é o processo de descobrir conhecimento em banco de dados, que envolve várias etapas.
O KDD – Knowledge Discovery in Database é uma destas etapas, portanto, a mineração de dados é um
conceito que abrange o KDD.
c) A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na busca de relações entre
os dados. De forma geral, existem três tipos de técnicas: Estatísticas, Exploratórias e Intuitivas. Todas
são devidamente experimentadas e validadas para o processo de mineração.
d) Os dados podem ser não estruturados (bancos de dados, CRM, ERP), estruturados (texto,
documentos, arquivos, mídias sociais, cloud) ou uma mistura de ambos (emails, SOA/web services,
RSS). As ferramentas de Data Discovery mais completas possuem conectividade para todas essas
origens de dados de forma segura e controlada.

Aula 02
e) Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são do tipo estruturado.
Existem diversas ferramentas open source e comerciais de Data Discovery. Dentre as open source está
a InfoSphere Data Explorer e entre as comerciais está a Vivisimo da IBM.
65- (FCC - 2014 - TRF - 3ª REGIÃO - Analista Judiciário - Informática - Banco de Dados) Mineração
de dados é a investigação de relações e padrões globais que existem em grandes bancos de dados, mas
que estão ocultos no grande volume de dados. Com base nas funções que executam, há diferentes
técnicas para a mineração de dados, dentre as quais estão:
I. identificar afinidades existentes entre um conjunto de itens em um dado grupo de registros. Por
exemplo: 75% dos envolvidos em processos judiciais ligados a ataques maliciosos a servidores de dados
também estão envolvidos em processos ligados a roubo de dados sigilosos.
II. identificar sequências que ocorrem em determinados registros. Por exemplo: 32% de pessoas do sexo
feminino após ajuizarem uma causa contra o INSS solicitando nova perícia médica ajuízam uma causa
contra o INSS solicitando ressarcimento monetário.
III. as categorias são definidas antes da análise dos dados. Pode ser utilizada para identificar os atributos
de um determinado grupo que fazem a discriminação entre 3 tipos diferentes, por exemplo, os tipos de
processos judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.
Os tipos de técnicas referenciados em I, II e III, respectivamente, são:
a) I - Padrões sequenciais
II - Redes Neurais
III - Árvore de decisão
b) I - Redes Neurais
II - Árvore de decisão
III - Padrões sequenciais
c) I - Associação
II - Padrões sequenciais
III – Classificação

Aula 02
d) I - Classificação
II - Associação
III - Previsão
e) I - Árvore de decisão
II - Classificação
III - Associação
66- (FCC - 2011 - INFRAERO - Analista de Sistemas - Administrador de Banco de Dados)

Funcionalidade cujo objetivo é encontrar conjuntos de dados que não obedecem ao comportamento ou
modelo dos dados. Uma vez encontrados, podem ser tratados ou descartados para utilização em mining.
Trata-se de
a) descrição.
b) agrupamento.
c) visualização.
d) análise de outliers.
e) análise de associações.
67- (FCC - 2011 - INFRAERO - Analista de Sistemas - Administrador de Banco de Dados) No

âmbito da descoberta do conhecimento (KDD), a visão geral das etapas que constituem o processo KDD
(Fayyad) e que são executadas de forma interativa e iterativa apresenta a seguinte sequência de etapas:
a) seleção, pré-processamento, transformação, data mining e interpretação/avaliação.
b) seleção, transformação, pré-processamento, interpretação/avaliação e data mining.
c) data warehousing, star modeling, ETL, OLAP e data mining.
d) ETL, data warehousing, pré-processamento, transformação e star modeling.
e) OLAP, ETL, star modeling, data mining e interpretação/avaliação.

Aula 02
68- (FCC - 2011 - TRT - 14ª Região (RO e AC) - Analista Judiciário - Tecnologia da Informação)
No contexto de DW, é uma categoria de ferramentas de análise denominada open-end e que permite ao
usuário avaliar tendências e padrões não conhecidos entre os dados. Trata-se de
a) slice.
b) star schema.
c) ODS.
d) ETL.
e) data mining.
de Dados) No âmbito dos algoritmos associados ao mining, se houver um banco de dados com um
número potencial pequeno de conjuntos de itens grandes, isto é, uns poucos milhares, então o suporte
para todos eles pode ser testado em uma passagem usando a técnica específica de
a) hierarquização.
b) partição.
c) amostragem.
d) árvore de padrão frequente.
e) séries temporais.
70- (FCC - 2010 - TRF - 4ª REGIÃO - Analista Judiciário - Tecnologia da Informação) Sobre data
mining, é correto afirmar:
a) É o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma

empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados
usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados conseguem determinar
de forma completa e eficiente o valor dos padrões encontrados.
c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam sistematicamente
"simplificados", de forma a desconsiderar aquilo que é genérico e privilegiar aquilo que é específico.

Aula 02
d) É um grande banco de dados voltado para dar suporte necessário nas decisões de usuários finais,
geralmente gerentes e analistas de negócios.
e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a partir de um data
warehouse, onde os dados já estão sem erros, sem duplicidade, são consistentes e habilitam descobertas
abrangentes e precisas.
71- (FCC - 2010 - TCM-PA - Técnico em Informática) Especificamente, um data mining onde as
tendências são modeladas conforme o tempo, usando dados conhecidos, e as tendências futuras são
obtidas com base no modelo possui a forma de mining
a) textual.
b) flocos de neve.
c) espacial.
d) estrela.
e) preditivo.
de Dados) NÃO é um objetivo da mineração de dados (mining), na visão dos diversos autores,
a) garantir a não redundância nos bancos transacionais.
b) conhecer o comportamento de certos atributos no futuro.
c) possibilitar a análise de determinados padrões de eventos.
d) categorizar perfis individuais ou coletivos de interesse comercial.
e) apoiar a otimização do uso de recursos limitados e/ou maximizar variáveis de resultado para a
empresa.

Aula 02
de Dados) A data mining apoia o conhecimento indutivo que pode ser representado por
I. Lógica proposicional.
II. Árvores de decisão.
III. Redes neurais.
IV. Redes semânticas.
Está correto o que consta em
a) I e III, apenas.
b) II e III, apenas.
c) II, III e IV, apenas.
d) I, II e IV, apenas.
e) I, II, III e IV.
de Dados) Uma das abordagens de mining define que, se uma regra de classificação é considerada uma
função sobre variáveis que as mapeia em uma classe destino, a regra é chamada
a) categorização.
b) Apriori.
c) algoritmo genético.
d) regressão.
e) minimização.

Aula 02
de Dados) Considere uma dada população de eventos ou novos itens que podem ser particionados
(segmentados) em conjuntos de elementos similares, tal como, por exemplo, uma população de dados
sobre uma doença que pode ser dividida em grupos baseados na similaridade dos efeitos colaterias
produzidos. Como um dos modos de descrever o conhecimento descoberto durante a data mining este
é chamado de
a) associação.
b) otimização.
c) classificação.
d) clustering.
e) temporização.

Aula 02
GABARITO
CEBRASPE/CESPE
1- Errado 11- Certo 21- Certo 31- Errado 41- Certo

2- Certo 12- Errado 22- C 32- E 42- Certo
3- Certo 13- Certo 23- Errado 33- Certo 43- Errado
4- Certo 14- Errado 24- Certo 34- Certo 44- Errado
5- Errado 15- Certo 25- Certo 35- Certo 45- Certo
6- Certo 16- Errado 26- Errado 36- C 46- Errado
7- Errado 17- C 27- B 37- Certo 47- Certo
8- Errado 18- Certo 28- E 38- Errado 48- Errado
9- Certo 19- Certo 29- Errado 39- Certo 49- Certo
10- Errado 20- Certo 30- Certo 40- Errado 50- Certo
FCC
51- C 56- A 61- A 66- D 71- E

52- B 57- C 62- D 67- A 72- A
53- E 58- A 63- B 68- E 73- E
54- E 59- D 64- A 69- B 74- D
55- E 60- A 65- C 70- A 75- D


Tecnologia Da Informação - Apostila - Aula 2

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tecnologia Da Informação - Apostila - Aula 2

Enviado por

Direitos autorais:

Formatos disponíveis

Aula 02

SEFAZ-AL - Tecnologia da Informação -

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

Esquema 1 – Mineração de dados. .................................................................................................................. 6

Esquema 2 – Características da mineração de dados. ................................................................................... 7

Esquema 3 – Objetivos da mineração de dados. ............................................................................................ 8

Esquema 4 – CRISP-DM. ................................................................................................................................. 12

Esquema 5 – Técnicas de pré-processamento (Navathe). .......................................................................... 15

Esquema 6 – Técnicas de pré-processamento (CRISP-DM). ....................................................................... 16

Esquema 7 – Técnicas ou tarefas de mineração. .......................................................................................... 21

Esquema 8 – Classificação. ............................................................................................................................. 25

Esquema 9 – Associação. ................................................................................................................................ 29

Esquema 10 – Agrupamentos (clusterização).............................................................................................. 34

Esquema 11 – Mineração de texto................................................................................................................. 39

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

Meu nome é Ramon Jorge de Souza e sou Auditor Fiscal da Receita

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

1. – Noções de mineração de dados

A mineração de dados (data mining) refere-se à mineração ou descoberta de novas informações

Tecnicamente falando, a mineração de dados é um processo que utiliza técnicas de estatística,

Os termos extração de conhecimento, análise de padrões, arqueologia de dados, busca de padrões

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

Uma organização que efetivamente aproveita as ferramentas e tecnologias de mineração de dados

Vamos fixar o apreendido até aqui com um esqueminha!

Processo não trivial de identificar

Esquema 1 – Mineração de dados.

As principais características da mineração de dados são:

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

❖ Muitas vezes encontram-se resultados inesperados e exige-se que os usuários finais

Bancos de dados muito

Esquema 2 – Características da mineração de dados.

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

2. – Modelo de Referência CRISP-DM

Como a mineração de dados é conduzida com base na experiência e experimentação, dependendo da

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

Vejamos então cada uma das fases do modelo CRISP-DM:

❖ Entendimento do negócio: o elemento-chave de qualquer iniciativa de mineração de dados é

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

❖ Teste e avaliação: os modelos desenvolvidos são testados e avaliados quanto à sua

❖ Implantação: etapa em que o conhecimento adquirido com a exploração dos dados é

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

(CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da Informação - Ciência de

(CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da Informação - Ciência de

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

3. – Técnicas para pré-processamento de dados

Técnicas de pré-processamento segundo Navathe

O processo de descoberta de conhecimento compreende seis fases: seleção de dados, limpeza de

Vejamos o que ocorre em cada uma das quatro fases de pré-processamento:

❖ Enriquecimento: melhoria dos dados com base em fontes de informações adicionais.

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

❖ Transformação de dados: os dados são transformados para um melhor processamento.

O esquema a seguir sintetiza as técnicas de preparação:

Esquema 6 – Técnicas de pré-processamento (CRISP-DM).

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

(CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da Informação - Ciência de

(CESPE / CEBRASPE - 2020 - Ministério da Economia - Tecnologia da Informação - Ciência de

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)

4. – Técnicas e tarefas de mineração de dados

Vejamos estas tarefas:

❖ Predição (ou previsão): busca descrever a natureza de ocorrências futuras de certos

SEFAZ-AL - Tecnologia da Informação - 2021 (Pós-Edital)