Cópia de Cópia de 5220360-Mineracao-De-Dados PDF

Sefaz-df
ANÁLISE DE INFORMAÇÕES
Mineração de dados
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo
SUMÁRIO
Introdução.................................................................................................3
1. Noções de Mineração de Dados: Conceituação e Características.....................4
2. Modelo de Referência Crisp-DM..................................................................6
3. Técnicas para Pré-processamento de Dados................................................9
4. Técnicas e Tarefas de Mineração de Dados................................................ 15
5. Classificação......................................................................................... 18
6. Regras de Associação............................................................................. 19
7. Análise de Agrupamentos (Clusterização).................................................. 20

8. Detecção de Anomalias........................................................................... 20
9. Modelagem Preditiva.............................................................................. 21
10. Aprendizado de Máquina....................................................................... 23
11. Mineração de Texto.............................................................................. 24
Resumo.................................................................................................... 30
Questões de Concurso................................................................................ 32
Gabarito................................................................................................... 42
Gabarito Comentado.................................................................................. 43
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 2 de 57
Introdução
Conforme falamos anteriormente, o volume de dados não estruturados é imen-
samente maior, se comparado ao de dados estruturados. Para se ter uma ideia,
estudos dizem que o conteúdo digital dobra a cada dois anos no mundo.
Sendo assim, o que devemos fazer para conseguir obter conhecimento desse
volume imenso de dados? Afinal, isso não é tarefa trivial, pois o tratamento de
dados não estruturados é imensamente mais complexo. Técnicas tradicionais não
resolvem o problema. Para extrair conhecimento desse volume de dados é preciso
fazer correlações, identificar padrões e descobrir tendências entre eles.
Pensando nisso, foi proposta a Mineração de Dados (Data Mining, em inglês).
Mas no que consiste o Data Mining?
1. NOÇÕES DE MINERAÇÃO DE DADOS: CONCEITUAÇÃO E CARAC-

TERÍSTICAS
Alguns tratam como novidade, mas, na verdade, é um conjunto de tecnologias
relativamente antigo, proposto lá pelo fim dos anos 80. Continua evoluindo até
hoje, principalmente pela sua estreita relação com o Big Data (que será detalhada-
mente abordado no próximo capítulo).
A mineração de dados consiste no uso de tecnologias e técnicas que permitem
explorar grandes volumes de dados (geralmente referentes a negócios, pesquisas
científicas ou análises de mercados), procurando por padrões e tendências, utili-
zando análises complexas. Ela utiliza algoritmos sofisticados para segmentar os
dados e avaliar a probabilidade de ocorrência de determinados eventos. Ou seja,
utilizando estatística, inteligência artificial e aprendizado de máquina, temos infini-
tas possibilidades para o conhecimento extraído dessa massa de dados.
A mineração de dados deve ser adotada para tornar mais eficiente o apoio à
tomada de decisão. Os resultados das análises realizadas pelos processos de mi-
neração agregam valor a decisões estratégicas, uma vez que permitem detectar
antecipadamente tendências, problemas, anomalias, enfim, vários itens que não
puderam ser detectados por um ser humano. Desse modo, as ferramentas de mi-
neração analisam os dados, descobrem problemas ou oportunidades escondidas
nos relacionamentos dos dados, definindo um padrão de comportamento. Com
base nesse resultado, aquele que for usufruir dessa análise precisará se preocupar
apenas em como utilizá-lo da melhor forma possível, pois o trabalho de garimpar
os dados já foi realizado pela ferramenta de mineração de dados.

A ideia da mineração de dados é: em vez do usuário definir o problema, sele-
cionar os dados e as ferramentas para analisar tais dados, o processo de minera-
ção pesquisa automaticamente os mesmos a procura de anomalias e possíveis re-
lacionamentos, identificando, assim, problemas que não tinham sido identificados
pelo usuário.
Suas principais propriedades são:
• detecção automática de padrões;
• predição de eventos;
• geração de informação para ações práticas;
• foco em grandes conjuntos e bancos de dados.
Para se ter uma ideia da abrangência da aplicabilidade da mineração de dados,
veja alguns exemplos em que ela pode ser utilizada nos mais diversos campos de
atuação:
• seguros: seguradoras podem resolver problemas complexos relativos à frau-
de, conformidade, gerenciamento de riscos e atrito com os clientes, prevenir
cancelamentos.
• educação: através da análise dos dados da evolução dos alunos, educadores
podem montar planos de aula mais assertivos para o melhor desenvolvimento
da turma;
• serviços financeiros: ajudar bancos a obter uma melhor visão dos riscos de
mercado, detectar fraudes mais rápido, gerenciar obrigações de conformida-
de regulatória e identificar padrões para auxiliar no gerenciamento de rela-
cionamento com o cliente;
• Governo: dispondo dos dados corretos, o setor público pode tomar decisões
mais rápidas nas áreas de segurança e saúde, reduzir fraudes na previdência
e otimizar a gestão dos recursos públicos;

• assistência médica: as seguradoras de saúde podem reduzir as reclamações
de fraudes, integridades de pagamentos, os prestadores de serviços hospita-
lares podem prover diagnósticos mais precisos aos pacientes e os pacientes
podem receber cuidados mais acessíveis e seguros;
• cartão de crédito: identificar segmentos de mercado, identificar padrões de
rotatividade;
• medicina: indicação de diagnósticos mais precisos;
• recursos humanos: identificação de competências em currículos;
• tomada de decisão: filtrar as informações relevantes, fornecer indicadores de
probabilidade.
O uso da Mineração de Dados permite, por exemplo, que:
• um supermercado melhore a disposição de seus produtos nas prateleiras,
através do padrão de consumo de seus clientes;
• uma companhia de marketing direcione o envio de mensagens promocionais,
obtendo melhores retornos;
• uma empresa aérea possa diferenciar seus serviços oferecendo um atendi-
mento personalizado;
• empresas planejem melhor a logística de distribuição dos seus produtos, pre-
vendo picos nas vendas;
• agências de viagens possam aumentar o volume de vendas direcionando seus
pacotes a clientes com aquele perfil.
2. MODELO DE REFERÊNCIA CRISP-DM
CRISP-DM é a abreviação de CRoss Industry Standard Process for Data Mining,
que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de
Dados.
É um modelo de processo de mineração de dados que descreve abordagens comu-
mente usadas por especialistas em mineração de dados para atacar problemas.
O padrão CRISP foi concebido por volta de 1996 e não se restringe a uma ferra-
menta ou tecnologia específica. Sua origem se deve principalmente à necessidade
da geração de modelos com foco na qualidade através da padronização de concei-
tos e técnicas na busca de informações para a tomada de decisões.
Foi proposta uma metodologia que pudesse auxiliar os administradores e res-
ponsáveis pelos processos de planejar e executar a mineração de dados, engloban-
do desde a especificação do processo até a apresentação dos resultados obtidos.
O processo CRISP-DM consiste em seis fases, que são organizadas de maneira
cíclica. Repare na figura abaixo que o fluxo entre as fases não possui sentido único.
Podemos avançar ou voltar entre as fases, caso necessário.
Figura 1: Fases do padrão CRISP-DM
As fases do CRISP-DM são:
1. Entendimento do negócio: trata-se dos objetivos do projeto e requerimen-
tos para a perspectiva do negócio. Aqui, o foco é entender qual o objetivo que se
deseja atingir com a mineração de dados. Essa fase é essencial para as seguintes.
2. Entendimento dos dados: nesta fase, podemos ter várias fontes de dados
armazenadas em locais distintos e com formatos diferentes. De posse dos dados a
serem analisados, devemos buscar compreendê-los e organizá-los. Com base no
que foi levantado na fase anterior, devemos identificar os dados relevantes para
que nossos objetivos sejam alcançados.
3. Preparação dos dados: obviamente, os dados não entregarão facilmen-
te as informações que buscamos para cumprirmos nossos objetivos. Afinal, eles
vêm de fontes e locais distintos, impossibilitando que a mineração de dados pos-
sa ser realizada.
Não existe uma sequência de tarefas, nem um limite para que elas sejam exe-
cutadas. Dependendo da qualidade desses dados, um processo de limpeza pode
ser necessário e, geralmente, envolve filtrar, combinar e preencher valores vazios.
4. Modelagem: é nesta fase que as técnicas (algoritmos) de mineração são
aplicadas. Você pode aplicar uma ou mais técnicas, tudo depende do objetivo a ser
alcançado. Aqui são criados modelos (equações ou outros modelos lógicos) que se
pode usar para dar suporte às decisões de negócios.
5. Avaliação: seria a validação do que foi feito até o momento. Antes de fina-
lizarmos nosso projeto, é importante revisar o que foi feito até aqui para garantir
que os objetivos levantados sejam atingidos. É nessa fase que descobrimos se os
modelos são bons o suficiente. Veja novamente a figura e repare que a etapa de
avaliação pode retornar para a etapa de entendimento do negócio, caso necessá-
rio. Um levantamento mal feito pode resultar em perda de tempo que poderia até
inviabilizar o projeto.
Diversas ferramentas gráficas são utilizadas para a visualização e análise dos
resultados (modelos). Testes e validações, visando obter a confiabilidade nos mo-
delos, devem ser executados; e indicadores para auxiliar a análise dos resultados
precisam ser obtidos.
6. Implantação: fase onde ocorre a integração do modelo no dia a dia da em-
presa. O conhecimento adquirido pelo modelo é organizado e apresentado de uma
maneira que o cliente possa utilizar. A fase de implantação pode ser simples como
gerar um relatório ou uma implementação complexa de um processo de Data Mining
que possa ser repetido.
E, assim, finalizamos um ciclo do CRISP-DM, que pode ser executado novamen-
te, caso necessário.
As 6 fases do CRISP-DM
Entendimento do negócio Entender qual o objetivo a ser atingido
Entendimento dos dados Compreender e organizar os dados
Preparação dos dados Limpar os dados
Modelagem Aplicação das técnicas de mineração
Avaliação Verificar se o que foi feito até agora está certo
Implantação Hora de colocar o modelo em produção
3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS
A mineração de dados é uma tecnologia que é composta, basicamente, por
três áreas: estatística, inteligência artificial e aprendizado de máquina. O que se
espera com a Mineração de Dados é obter conhecimento, na forma de regras ou
de estruturas equivalentes, que oriente uma decisão. Além disso, quando aplicado
de modo inteligente, esse conhecimento nos permite, conforme veremos de for-
ma mais detalhada a seguir, fazer previsões, descobrir novas associações, refinar
agrupamentos efetuados por critério de semelhança ou certificar-se de anomalias
de comportamento.
A mineração de dados é parte de um processo maior, conhecido como KDD
(Knowledge Discovery in Databases) – em português, Descoberta de Conhecimen-
to em Bases de Dados. A definição de KDD dada por FAYYAD et al. (1996) resume
bem do que se trata:
processo, não trivial, de extração de informações implícitas, previamente desconhecidas

e potencialmente úteis, a partir dos dados armazenados em um banco de dados.
O processo KDD é constituído de várias etapas, que são executadas de forma
interativa e iterativa. São interativas porque envolvem a cooperação da pessoa res-
ponsável pela análise de dados, cujo conhecimento sobre o domínio orientará a exe-
cução do processo. Por sua vez, a iteração deve-se ao fato de que, com frequência,
esse processo não é executado de forma sequencial, mas envolve repetidas sele-
ções de parâmetros e conjunto de dados; aplicações das técnicas de mineração de
dados e posterior análise dos resultados obtidos, a fim de refinar os conhecimentos
extraídos.
É importante destacar que cada técnica de mineração de dados utilizada para
conduzir as operações adapta-se melhor a alguns problemas do que a outros, o que
impossibilita a existência de um método universalmente melhor. Para cada proble-
ma particular, tem-se uma técnica particular.
Os desenvolvedores projetam as bases de dados, descrevem problemas e
definem objetivos, enquanto os computadores processam os dados e procuram
padrões que coincidam com os objetivos estabelecidos. Isto faz da KDD um pro-
cesso cooperativo.
O processo de busca de conhecimento contém uma série de passos: seleção,
pré-processamento e limpeza, transformação, mineração de dados e interpretação/
avaliação. Simplificando: pode-se dizer que o processo de KDD compreende, na
verdade, todo o ciclo que o dado percorre até virar informação, conforme pode ser
visto na figura abaixo:
Figura 2: Fases da Descoberta de Conhecimento em Bases de Dados
Embora esses passos devam ser executados na ordem apresentada, o processo
é interativo, pois o usuário pode (e muitas vezes necessita) continuamente inter-
vir e controlar o curso das atividades, e iterativo, por ser uma sequência finita de
operações em que o resultado de cada uma é dependente dos resultados das que
a precedem.
Abaixo temos um resumo sobre as fases do KDD:
Seleção
A fase de seleção de dados é a primeira no processo de descobrimento de in-
formação e possui impacto significativo sobre a qualidade do resultado final. Nessa
fase é escolhido o conjunto de dados contendo todas as possíveis variáveis (tam-
bém chamadas de características ou atributos) e registros (também chamados de
casos ou observações) que farão parte da análise. Normalmente, essa escolha dos
dados fica a critério de um especialista do domínio, ou seja, alguém que realmente
entende do assunto em questão.

O processo de seleção é bastante complexo, uma vez que os dados podem vir
de uma série de fontes e podem possuir os mais diversos formatos. É comum ocor-
rer a necessidade de se criar uma rotina específica para a carga dos dados, já que
nem sempre as ferramentas de carga existentes conseguem dar conta das peculia-
ridades de cada aplicação.
Pré-processamento e Limpeza
O Pré-processamento e limpeza dos dados é uma parte crucial no processo
de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de
mineração. Nessa etapa deverão ser realizadas tarefas que eliminem dados redun-
dantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados
discrepantes ao conjunto.
O auxílio de um especialista do domínio é fundamental, pois, na maioria dos
casos, apenas alguém que realmente entende do assunto é capaz de dizer se um
dado realmente não pertence ao conjunto ou se é apenas um erro de digitação.
Nessa fase também são utilizados métodos de redução ou transformação para
diminuir o número de variáveis envolvidas no processo, visando, com isso, melho-
rar o desempenho do algoritmo de análise.
A identificação de dados inapropriados dentro do conjunto selecionado é pro-
blemática, e isso dificulta a automatização dessa fase. Definir um dado como
“ruim” dentro do conjunto depende da estrutura dele e também de que aplicação
é dada a ele.
Um problema bastante comum nessa fase é a existência de registros com dados
incompletos, seja por falhas no processo de seleção ou de revisão. O tratamento
desses casos é necessário para que os resultados do processo de mineração sejam
confiáveis. Podemos usar as seguintes soluções para tratarmos a ausência de dados:

• fazer a previsão dos dados ausentes e completá-los individualmente;
• substituir o valor faltante pela média aritmética da variável;
• excluir o registro inteiro.
Devemos também ficar atentos a situações em que os dados possuem valores
extremos, atípicos ou com características bastante distintas dos demais registros.
Eles são chamados de discrepantes, ou outliers.
Normalmente, registros que contêm valores outliers são descartados da amos-
tra, porém, isso só deve ocorrer quando o dado outlier representar um erro de ob-
servação, de medida ou algum outro problema similar.
O dado deve ser cuidadosamente analisado antes da exclusão, pois, embora
atípico, o valor pode representar um dado verdadeiro. Outliers podem representar,
por exemplo, um comportamento não usual, uma tendência ou ainda transações
fraudulentas.
Transformação dos Dados
A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining.
Após serem selecionados, limpos e pré-processados, os dados necessitam ser ar-
mazenados e formatados adequadamente para que os algoritmos possam ser apli-
cados.
Em grandes corporações é comum encontrar computadores rodando diferentes
sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados
(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-
rio único.
Além disso, nessa fase, se necessário, é possível obter dados faltantes através
da transformação ou combinação de outros, são os chamados “dados derivados”.
Um exemplo de um dado que pode ser calculado a partir de outro é a idade de

um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Outro
exemplo é o valor total de um financiamento, que pode ser calculado a partir da
multiplicação do número de parcelas pelo valor da parcela.
Após serem selecionados, limpos e pré-processados os dados necessitam ser
armazenados e formatados adequadamente para que os algoritmos de aprendizado
possam ser aplicados.
Em grandes corporações é comum encontrar computadores rodando diferentes
sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados
(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-
rio único.
Todas as etapas do processo são importantes para o sucesso dele. Entretanto, é
a etapa de Mineração de Dados que recebe o maior destaque na literatura (e a que
mais nos interessa, nesse caso).
Interpretação e Avaliação
Consiste no tratamento (visualização, análise e interpretação) do conhecimento
minerado. De forma geral, nessa etapa é que o especialista do domínio de aplicação
e o engenheiro do conhecimento analisam os resultados abstraídos.
Essa é mais uma fase que deve ser feita em conjunto com um ou mais espe-
cialistas no assunto. O conhecimento adquirido através da técnica de data mining
deve ser interpretado e avaliado para que o objetivo final seja alcançado.
Caso o resultado não seja satisfatório, o que não é raro, o processo pode retor-
nar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado, confor-
me pode ser observado na Figura 3.
Figura 3: Fases do KDD
Duas das ações mais comuns, caso o resultado não seja satisfatório são: modifi-
car o conjunto de dados inicial e/ou trocar o algoritmo de data mining (ou ao menos
alterar suas configurações de entrada).
Repare que tanto no modelo CRISP-DM quanto no KDD as fases iniciais são extre-
mamente importantes. Um levantamento mal executado pode implicar em retraba-
lho (visto que fases terão que ser refeitas), retrocesso (pois precisaremos voltar na
fase que ocorreu o problema) e, no pior dos cenários, cancelamento do projeto de
Data Mining, por inviabilidade, seja de prazo ou custo.
4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS
Antes de mais nada, devemos esclarecer: qual a diferença entre tarefa e técnica
de mineração?
Tarefas de mineração consistem na especificação do que estamos querendo
buscar nos dados, que tipo de regularidades ou categoria de padrões temos inte-
resse em encontrar, ou que tipo de padrões poderiam nos surpreender. Estão rela-
cionadas às perguntas feitas na etapa de seleção dos dados, ou seja, nessa fase, a
preocupação é relacionar as perguntas feitas com o que se tem em mãos e, assim,
determinar, pela tarefa a ser realizada, que técnica usar.
Algumas tarefas de mineração serão mais detalhadas a seguir, mas antes de-
vemos esclarecer uma forma pela qual elas podem ser divididas: podem ser de
aprendizado supervisionado ou não supervisionado.
No aprendizado supervisionado existe algum tipo de orientação que subsidia e
norteia o funcionamento da técnica. A partir de exemplos, ele pode seguir e tomar
decisões. A técnica de classificação seria desse tipo. Algoritmos de aprendizado
supervisionado são treinados usando exemplos rotulados, como uma entrada onde
a saída desejada é conhecida. O algoritmo de aprendizagem recebe um conjunto
de entradas junto com as saídas corretas correspondentes, e o algoritmo aprende
comparando a saída real com as saídas corretas para encontrar erros.
Já no aprendizado não supervisionado o algoritmo tira suas próprias conclusões
sem que tenha recebido nenhum tipo de exemplo prévio. O aprendizado não super-
visionado é usado contra dados que não possuem rótulos históricos. O sistema não
sabe a “resposta certa”. O algoritmo deve descobrir o que está sendo mostrado.
O objetivo é explorar os dados e encontrar alguma estrutura neles. O aprendizado
não supervisionado funciona bem em dados transacionais. Por exemplo: ele pode
identificar segmentos de clientes com atributos semelhantes que podem ser trata-
dos de modo semelhante em campanhas de marketing; ou ele pode encontrar os
principais atributos que separam os segmentos de clientes uns dos outros.
Aprendizado supervisionado: existe algum exemplo ou orientação, um “professor”
que indica como o algoritmo deve proceder.
Aprendizado não supervisionado: não há o “professor”, o algoritmo aprende sozi-
nho as relações, padrões, categorias etc. dos dados que são apresentados e emite
suas próprias conclusões.
Técnicas de mineração consistem na especificação de métodos que nos garan-
tam como descobrir os padrões que nos interessam. O próximo passo agora é en-
tender como saber que técnica escolher, dada uma determinada tarefa. Como já foi
dito, a tarefa depende do objetivo a ser alcançado.
Entre as várias técnicas de Mineração de Dados, podemos destacar: Árvore de
Decisão, Redes Neurais, Indução de Regra, Visualização, Regressão, Análises de
Séries Temporais e Algoritmo Genético. A seguir, serão descritas as três principais:
Árvore de Decisão, Redes Neurais e Algoritmo Genético.
• Árvore de Decisão: utilizam um tipo de algoritmo de aprendizado de máquina
baseado na abordagem de dividir para conquistar. Uma árvore de decisão é
um modelo de função discreta no qual é determinado o valor de uma variável.
Com base nesse valor é executada alguma ação.
• Redes Neurais: foram criadas com base no estudo do cérebro humano. Assim
sendo, sua principal característica é dada pela capacidade de aprender, com
base na exposição de exemplos, sendo que a construção de uma rede neural
se constitui na configuração de sua arquitetura interna, ou seja, uma rede in-
terligada de neurônios; e no treinamento dessa rede com base em exemplos,
até que a rede consiga aprender como resolver o problema, melhorando, des-
sa forma, seu desempenho.

• Algoritmos Genéticos: simulam o processo de seleção natural proposto por
Charles Darwin, em 1859. De acordo com a teoria de Darwin, pode-se dizer
que os organismos são equivalentes às estruturas de dados, enquanto os cro-
mossomos são equivalentes às cadeias de bits, surgindo mais de um conjunto
de considerações inteiramente diferentes que podem ser usados numa mes-
ma solução do problema. Algoritmos genéticos são mais facilmente aplicados
em problemas com muitas variáveis e restrições.
5. CLASSIFICAÇÃO
Uma das tarefas mais comuns, a Classificação, visa identificar a qual classe um
determinado registro pertence. Nessa tarefa, o modelo analisa o conjunto de regis-
tros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a
fim de “aprender” como classificar um novo registro (aprendizado supervisionado).
Por exemplo, categorizamos cada registro de um conjunto de dados contendo as
informações sobre os colaboradores de uma empresa: Perfil Técnico, Perfil Negocial
e Perfil Gerencial.
O modelo analisa os registros e então é capaz de dizer em qual categoria um
novo colaborador se encaixa. A tarefa de classificação pode ser usada, por exem-
plo, para:
• determinar quando uma transação de cartão de crédito pode ser uma fraude;
• identificar, em uma escola, qual a turma mais indicada para um determinado
aluno;
• diagnosticar onde uma determinada doença pode estar presente.
A tarefa de classificação utiliza, comumente, a técnica conhecida como árvore
de decisão que, basicamente, consiste num gráfico em forma de árvore, contendo
as decisões a serem tomadas e suas possíveis consequências.

6. REGRAS DE ASSOCIAÇÃO
Uma associação pode ser analisada da seguinte maneira: dado um conjunto de
registros e uma coleção de itens, cada um deles identificados com alguns números
de itens e de uma coleção, a função de associação retornará afinidades que existem
na coleção de itens desse conjunto de registros. As afinidades podem ser expres-
sas através de regras, por exemplo: 80% dos registros que contém os itens A e B
também contém os C e D. Em um banco de dados podem ser encontradas várias
regras de associação.
Seu estudo tem como objetivo buscar correlação entre atributos, ou seja, en-
contrar itens que impliquem na presença de outros na mesma transação.
A análise associativa é uma metodologia bastante útil para descobrir relaciona-
mentos que se mostrem interessantes em conjuntos de dados. Através dessa aná-
lise podemos descobrir relações úteis que muitas vezes não são visíveis em uma
visão mais superficial. Esses relacionamentos descobertos podem ser representa-
dos por Regras de Associação que mostram itens que são mais frequentes nesse
banco de dados.
As Regras de Associação podem ser fracas e até absurdas. Um exemplo seria o
caso de uma pessoa que vai a uma livraria para comprar um livro e, além do livro,
ele pega um chocolate no caixa. Isso não poderia ser interpretado como uma regra
absoluta para outros casos.
O algoritmo Apriori é um dos algoritmos mais conhecidos para mineração por
regras de associação. Ele afirma que, se um conjunto é frequente, então, todos os
seus subconjuntos também devem ser.
Por isso infere-se que a Análise Associativa pode ser útil para uma empresa que
deseja melhorar as vendas, diagnósticos médicos, estudos científicos para compre-
ender dados de natureza complexa etc.
7. ANÁLISE DE AGRUPAMENTOS (CLUSTERIZAÇÃO)
A tarefa de agrupamento visa identificar e aproximar os registros similares. Um
agrupamento (ou cluster) é uma coleção de registros similares entre si, porém,
diferentes dos outros registros nos demais agrupamentos. Essa tarefa difere da
classificação, pois não necessita que os registros sejam previamente categorizados
(aprendizado não supervisionado). Além disso, ela não tem a pretensão de classi-
ficar, estimar ou predizer o valor de uma variável, apenas identifica os grupos de
dados similares. Exemplos:
• segmentação de mercado para um nicho de produtos;
• para auditoria, separando comportamentos suspeitos;
• reduzir para um conjunto de atributos similares registros com centenas de
atributos.
As aplicações das tarefas de agrupamento são as mais variadas possíveis: pes-
quisa de mercado, reconhecimento de padrões, processamento de imagens, análi-
se de dados, segmentação de mercado, taxonomia de plantas e animais, pesquisas
geográficas, classificação de documentos da Web, detecção de comportamentos
atípicos (fraudes), entre outros. Geralmente, a tarefa de agrupamento é combina-
da com outras tarefas, além de serem usadas na fase de preparação dos dados.
8. DETECÇÃO DE ANOMALIAS
É a tarefa de identificar registros que tenham características muito diferentes de
outros registros do mesmo grupo.
Desvios em dados são valores não condizentes com o padrão dos outros que es-
tão na mesma categoria em um banco de dados. A análise de desvios consiste em
identificar esses valores para auxílio na tomada de decisão. A tomada de decisão

mais comum é excluí-lo da base, já que ele é considerado discrepante em relação
aos outros, sendo tratado, assim, como uma exceção. Porém, para algumas aplica-
ções, essas exceções são bastante interessantes. Por exemplo: podemos citar uma
empresa de cartões de crédito que deseja descobrir fraudes no uso dos seus car-
tões por uso dos seus clientes. Valores discrepantes podem dar uma boa dica para
identificar essas infrações. As técnicas utilizadas para isso podem ser, por exemplo,
Árvores de Decisão ou redes neurais.
9. MODELAGEM PREDITIVA
A análise preditiva é o uso de dados, algoritmos estatísticos e técnicas de
machine learning (também conhecido como aprendizado de máquina. Será abor-
dado no próximo tópico) para identificar a probabilidade de resultados futuros com
base em dados históricos.
O objetivo é ir além da estatística descritiva e dos relatórios sobre o que acon-
teceu para fornecer uma melhor avaliação sobre o que vai acontecer no futuro. O
resultado final é a simplificação da tomada de decisão e a geração de novos insights
que levem a melhores ações.
Os modelos preditivos utilizam os resultados conhecidos para desenvolver (ou
treinar) um modelo que possa ser usado para prever valores para dados diferentes
ou novos.
Cada vez mais organizações estão se voltando para a análise preditiva, visando
aumentar seu lucro e sua vantagem competitiva. Por que agora?
• Crescentes volumes e tipos de dados e mais interesse na utilização de dados
para produzir informações valiosas.
• Computadores mais rápidos e mais baratos e softwares mais fáceis de usar.
• Agravamento das condições econômicas e uma necessidade de diferenciação
competitiva.
• Com o software interativo e fácil de usar se tornando cada vez mais predo-
minante, a análise preditiva não é mais apenas o domínio de matemáticos
e estatísticos. Os analistas de negócios e especialistas na linha de negócios
também estão usando essas tecnologias.
A análise preditiva é utilizada basicamente para realizar cinco tarefas:
• identificar tendências;
• entender os clientes;
• melhorar o desempenho dos negócios;
• promover a tomada de decisão estratégica;
• prever o comportamento.
Algumas das aplicações mais comuns das análises preditivas incluem:
• detecção de fraude: pode ajudar a reduzir a ocorrência de perdas ocorridas
por atividades fraudulentas antes que elas ocorram.
• marketing: pode ajudar uma empresa a entender melhor seus clientes. A
maioria das organizações modernas usa a análise de dados para determinar
as respostas ou compras dos clientes, bem como para promover oportunida-
des de vendas cruzadas.
• operações: previsão de estoques e gerenciar os recursos das fábricas, poden-
do ainda ser utilizada com finalidades ainda mais específicas.
Para adotar a modelagem preditiva, antes de mais nada, é preciso saber qual
o problema que se quer solucionar. Em seguida, deve-se verificar onde poderão
ser obtidos os dados que irão subsidiar a solução desse problema. Deve-se levar
em conta que a preparação dos dados deve ser bem executada, o que leva tempo.
Além disso, uma preparação mal elaborada, acarretará em perda de tempo e retra-
balho. A partir daí, começa a construção do modelo preditivo.

A modelagem preditiva exige uma abordagem em equipe. São necessárias pes-
soas que entendam do problema a ser resolvido, pessoas que saibam preparar os
dados, construir e refinar os modelos.
Modelagem preditiva está presente no nosso cotidiano, conforme podemos ver
nos exemplos listados abaixo:
• recomendações: capacidade de serviços de streaming de áudio e vídeo apren-
derem com o que você ouve e assiste e sugerir novas opções de acordo com
o seu gosto.
• detecção de fraude: na execução de uma operação financeira, um modelo de
risco calcula a probabilidade de que, dado o perfil informado, a pessoa seja
fraudadora ou inadimplente. Existem tecnologias que utilizam diversas fontes
de dados, como comportamento de navegação, redes sociais e histórico de
transações.
10. APRENDIZADO DE MÁQUINA
Machine Learning ou Aprendizado de Máquina é um método de análise de dados
que automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que
aprendem interativamente a partir de dados, o aprendizado de máquinas permite
que os computadores encontrem insights ocultos sem serem explicitamente pro-
gramados para procurar algo específico.
O aspecto interativo do aprendizado de máquinas é importante porque, confor-
me os modelos são expostos a novos dados, eles são capazes de se adaptar de for-
ma independente. Eles aprendem com os cálculos anteriores para produzir decisões
e resultados confiáveis e reproduzíveis.
Aqui estão alguns exemplos amplamente divulgados de aplicações do machine
learning com os quais você pode já estar familiarizado:

• carros autônomos que dirigem sozinhos. Puro aprendizado de máquina;
• saber o que os clientes dizem sobre uma empresa nas redes sociais (Twitter,
por exemplo).
O interesse no aprendizado de máquina ressurgiu devido aos mesmos fatores
que tornaram a mineração de dados mais popular do que nunca. Coisas como o
crescente volume e variedade de dados disponíveis, o processamento computacio-
nal que está mais barato e mais poderoso, e o armazenamento de dados de forma
acessível.
Tudo isso significa que é possível produzir, de forma rápida e automática, mode-
los que permitam analisar dados maiores e mais complexos e fornecer resultados
mais rápidos e mais precisos – mesmo em uma escala muito grande. O resultado?
Previsões de alto valor que podem levar a melhores decisões e ações inteligentes
em tempo real, sem a intervenção humana.
11. MINERAÇÃO DE TEXTO
Anteriormente, vimos o processo de KDD, que é a busca por conhecimento em
bases de dados. As bases de dados são estruturadas. Mas lembra quando falamos
que a maioria da informação existente é não estruturada? Como podemos proceder
com a busca por conhecimento nesse montante de informação?
É aí que entra a mineração de texto.
A mineração de texto é um processo que utiliza algoritmos capazes de analisar
coleções de documentos texto, com o objetivo de extrair conhecimento. A análise
de dados armazenados em formato não estruturado pode ser considerada uma ati-
vidade mais complexa, se comparada à análise de dados estruturados, justamente
pelo fato dos dados possuírem a característica da não estruturação. Logo, são ne-
cessárias técnicas e ferramentas específicas para tratamento desse tipo de dados.

Esse conjunto de técnicas e ferramentas também fazem parte da área de recupera-
ção de informações, mais especificamente da área conhecida como Descoberta de
Conhecimento em Textos (Knowledge Discovery from Text - KDT).
A ideia de buscar conhecimento nesse imenso volume de dados é extremamente
interessante, porém, nada prática. Essa situação motivou o surgimento da minera-
ção de texto, uma subárea da mineração de dados interessada no desenvolvimento
de técnicas e processos para a descoberta automática de conhecimento valioso a
partir de coleções de documentos texto.
As etapas da metodologia de mineração de textos seriam:
• coleta: etapa inicial e tem como objetivo formar uma base de dados textual.
Pode se dar de várias maneiras, porém, todas necessitam de grande esforço,
a fim de se conseguir material de qualidade e que sirva de matéria-prima
para a aquisição de conhecimento.
• pré-processamento: etapa executada imediatamente após a Coleta e tem
como objetivo prover alguma formatação e representação da massa textual.
É bastante onerosa, com a aplicação de diversos algoritmos que consomem
boa parte do tempo do processo de extração de conhecimento.
• indexação: é o processo que organiza todos os termos adquiridos a partir de
fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura
de índices garante rapidez e agilidade ao processo, tal como funciona o índice
de um livro.
• mineração: é responsável pelo desenvolvimento de cálculos, inferências e
algoritmos e que tem como objetivo a extração de conhecimento, descoberta
de padrões e comportamentos.
• análise: é a última etapa e deve ser executada por pessoas que, normalmen-
te, estão interessadas no conhecimento extraído e que devem tomar algum
tipo de decisão apoiada no processo de Mineração de Texto.
Algumas formas de descobrirmos conhecimento através da mineração de texto
seriam:
• Descoberta por Extração de passagens: busca encontrar informações especí-
ficas, auxiliando usuários a encontrar detalhes, sem que ele precise ler todo
texto. Entretanto, ainda assim, é necessário que o usuário leia e interprete as
partes do texto que forem recuperadas para extrair a informação desejada.
• Descoberta por Análise Linguística: informações e regras podem ser desco-
bertas através de análises linguísticas em níveis léxico, morfológico, sintático
e semântico.
• Descoberta por Análise de Conteúdo: semelhante à descoberta por extração
de passagens e à descoberta por análise linguística. Esse tipo de descoberta
investiga linguisticamente os textos e apresenta ao seu usuário informações
sobre o conteúdo dos textos, sendo que há um maior esforço no tratamento
semântico dos textos e visa encontrar o significado do texto pretendido.
• Descoberta por Dumarização: utiliza as técnicas de descoberta por extração
de passagens, descoberta por análise de conteúdo e descoberta por análise
linguística, com ênfase na produção de resumos ou sumários (abstração das
partes mais importantes do conteúdo do texto) a partir de textos.
• Descoberta por Associação entre Passagens: tem por objetivo encontrar au-
tomaticamente conhecimento e informações relacionadas no mesmo texto ou
em textos diferentes.
• Descoberta por Listas de Conceitos-Chave: o objetivo desse tipo de descober-
ta é apresentar uma lista com os conceitos principais de um único texto, uti-
lizando técnicas que permitem extrair os termos mais frequentes dos textos.
• Descoberta de Estruturas de Textos: esta técnica analisa as coesões léxicas
de um texto, tendo como resultado cadeias de termos relacionados que con-
tribuem para a continuidade do seu significado léxico.

• Descoberta por Recuperação de Informações: suas técnicas podem ajudar
apresentando documentos com visão geral das informações ou assuntos, ou
apresentando partes de documentos com detalhes de informações.
• Descoberta Tradicional após Extração: é o tipo de descoberta mais simples.
Nessa abordagem, os dados são extraídos dos textos e formatados em bases
de dados estruturados com o auxílio de técnicas de Extração de Informações.
Depois, são aplicadas técnicas e algoritmos de Mineração de Dados Estrutu-
rados (KDD), no sentido de descobrir conhecimento útil para seus usuários.
• Descoberta por Clusterização: auxilia o processo de descoberta de conhe-
cimento, facilitando a identificação de padrões (características comuns dos
elementos) nas classes. Essa técnica pode ser utilizada para estruturar e
sintetizar o conhecimento quando este é incompleto ou quando há muitos
atributos a ser considerados.
• Descoberta por Descrição de Classes de Textos: dada uma classe de docu-
mentos textuais e uma categoria associada a esta classe, esse tipo de des-
coberta busca encontrar as características principais dessa classe, as quais
possam identificá-la para os usuários e distingui-las das demais classes.
• Descoberta por Associação entre Textos: procura relacionar descobertas pre-
sentes em vários textos diferentes. As descobertas estão presentes no conte-
údo ou significado dos textos.
• Descoberta por Associação entre Características: esta abordagem procura
relacionar tipos de informação (atributos) presentes em textos, aplicando a
técnica de correlação ou associação tradicional em Mineração de Dados dire-
tamente sobre partes do texto.
• Uma das diferenças é que os valores para os atributos são partes do texto e
não necessariamente dados extraídos por técnicas de extração de informações.

• Descoberta por Hipertextos: aqui a descoberta é exploratória e experimental,
feita através de mecanismos de navegação. Com tais ferramentas, é possível
expandir e comparar o conhecimento através dos links que relacionam as
informações, funcionando de modo análogo à mente humana (memória as-
sociativa). Tal abordagem é útil quando os problemas de falta de informação
são mal definidos e quando se quer explorar novos domínios.
• Descoberta por Manipulação de Formalismos: uma vez que é possível repre-
sentar o conteúdo dos textos em formalismos, mecanismos de manipulação
simbólica podem inferir novos conhecimentos, simplesmente por transforma-
ções na forma.
• Descoberta por Combinação de Representações: um caso especial da desco-
berta por associação entre textos é a descoberta por combinação de repre-
sentações.
• A diferença é que os textos, antes de serem combinados, passam por um
processo de representação interna.
• Então, na verdade, não são os textos que são combinados, mas, sim, seus
conteúdos, conforme o formalismo e as regras internas.
• A combinação de representações diferentes permite que pontos de vista di-
ferentes possam ser usados para criar novas representações e, consequente-
mente, novo conhecimento.
• Descoberta por Comparação de Modelos Mentais: procura representar docu-
mentos textuais e o estado de conhecimento do usuário (modelo mental das
informações) em um formalismo padrão para, após, compará-los.
• Se for possível verificar o que há nos documentos que falta no estado mental
do usuário, então um conhecimento novo foi descoberto.
• Descoberta por Análise de Sequências Temporais: esta técnica permite des-
cobrir dependências entre conceitos que aparecem em textos dentro de uma
mesma janela de tempo.
• O objetivo é saber se um conceito condiciona a aparição de outro no futuro.
Os textos a serem analisados nesse processo devem, obrigatoriamente, se-
guir uma ordem cronológica, formando uma sequência temporal.
Essas sequências podem ser independentes, não havendo relação explícita
entre textos de uma sequência e de outra.
RESUMO
• Mineração de Dados (Data Mining): tecnologias e técnicas que permitem ex-
plorar um grande volume de dados, utilizando algoritmos sofisticados e rea-
lizando análises complexas. Os algoritmos segmentam os dados e avaliam a
probabilidade de ocorrência de determinados eventos.
• CRISP-DM: é um modelo padrão de mineração de dados que descreve as
abordagens comuns usadas para resolver problemas. É constituído de seis
fases, é cíclico e é possível avançar e voltar entre as fases.
• As seis fases do CRISP-DM:
–– entendimento do negócio;
–– entendimento dos dados;
–– preparação dos dados;
–– modelagem;
–– avaliação;
–– implantação;
• KDD: busca de conhecimento em bases de dados.
• Etapas KDD:
–– Seleção: identificação de quais dados serão trabalhados na base;
–– Pré-processamento e Limpeza: verificação de inconsistências nos dados
que serão trabalhados;
–– Transformação: fase de organização e formatação dos dados para que os
algoritmos de mineração funcionem adequadamente;
–– Mineração de Dados: onde é feita a busca por informações efetivamente
úteis, aplicando-se algoritmos para extrair o conhecimento da base de dados;
–– Interpretação e avaliação: é onde o conhecimento adquirido é avaliado,
verificando-se se o objetivo foi atingido.

• Classificação: procura identificar a qual classe um registro pertence, com
base em exemplos ou indicações (aprendizado supervisionado).
• Regras de associação: buscam por similaridades, afinidades existentes em
itens de um conjunto de registros.
• Análise de agrupamentos (clusterização): procura identificar e agrupar regis-
tros similares. Não precisa de classificação prévia (aprendizado não supervi-
sionado).
• Detecção de anomalias: identificar registros que tenham características muito
diferentes de outros registros do mesmo grupo.
• Modelagem preditiva: identificar a probabilidade de resultados futuros com
base em dados históricos.
• Aprendizado de máquina: método de análise de dados usando algoritmos que
aprendem a partir dos dados que recebem, sem serem programados para
procurar algo específico.
• Mineração de texto: busca de conhecimento em dados não estruturados. Di-
fere do KDD, que busca em bases de dados.
• Etapas mineração de texto:
–– Coleta: etapa inicial e tem como objetivo formar uma base de dados textual;
–– Pré-processamento: visa prover alguma formatação e representação da
massa textual;
–– Indexação: organização dos termos adquiridos das fontes de dados, facili-
tando o seu acesso e recuperação. Associe ao índice de um livro. Você vai
no índice e de lá consegue saber em que página está o que procura, sem
precisar ler o livro inteiro;
–– Mineração: a mesma que tratamos no decorrer de todo o capítulo;
–– Análise: validação do conhecimento obtido na mineração de texto;
QUESTÕES DE CONCURSO
1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que:
a) Refere-se à implementação de banco de dados paralelos.
b) Consiste em armazenar o banco de dados em diversos computadores.
c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes-
mo intervalo de tempo.
d) Permite-se distinguir várias entidades de um conjunto.
e) Refere-se à busca de informações relevantes a partir de um grande volume de
dados.
2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar:
a) É o processo de descoberta de novas correlações, padrões e tendências entre
as informações de uma empresa, por meio da análise de grandes quantidades de
dados armazenados em bancos de dados usando técnicas de reconhecimento de
padrões, estatísticas e matemáticas.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-
seguem determinar de forma completa e eficiente o valor dos padrões encontrados.
c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam
sistematicamente “simplificados”, de forma a desconsiderar aquilo que é genérico
e privilegiar aquilo que é específico.
d) É um grande banco de dados voltado para dar suporte necessário nas decisões
de usuários finais, geralmente gerentes e analistas de negócios.
e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a
partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade,
são consistentes e habilitam descobertas abrangentes e precisas.
3. (FCC/TRT 11/2017) Sistemas do tipo I e do tipo II realizam tarefas diferentes,
porém complementares. O tipo I é adequado para atividades como indexação de
dados, alocação de custos, análises de séries temporais e análises “what-if”. Po-
rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências
indutivas, processo que permite chegar a conclusões genéricas a partir de exem-
plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas
do tipo I fornecem uma visão multidimensional de dados, incluindo suporte a hie-
rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-
ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-
contrar padrões e relações entre as informações disponíveis em bancos de dados.
Os sistemas do tipo II podem encontrar informações ocultas nos dados disponíveis,
mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a
organização.
Os sistemas do tipo I e II são, correta e respectivamente,
a) Data Warehouse e Data Mining.
b) Banco de Dados Multidimensional e Banco de Dados Relacional.
c) Data Mining e Data Warehouse.
d) OLAP e Data Mining.
e) OLAP e Data Warehouse.
4. (CESPE/ANATEL/2014) A respeito de banco de dados, julgue os itens que se
seguem.
No processo de Data Mining (mineração de dados), é indispensável o uso de téc-
nica conhecida como Data Warehousing, uma vez que a mineração de dados deve
ocorrer necessariamente em estruturas não normalizadas (FN0).
5. (CESPE/TJDFT/2015) Julgue o item a seguir, a respeito de Data Warehouse e de
Data Mining.
Em um processo de mineração, durante a etapa de preparação dos dados, são ana-
lisados os requisitos de negócio para consolidar os dados.
6. (CESPE/TCE-SC/2016) Julgue os itens, acerca de mineração de dados.
Para a realização de prognósticos por meio de técnicas de mineração de dados, par-
te-se de uma série de valores existentes obtidos de dados históricos bem como de
suposições controladas a respeito das condições futuras, para prever outros valores
e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.
7. (CESPE/TCE/2016) CRISP-DM é uma metodologia proprietária que identifica as
fases Business Understanding e Data Understanding na implantação de um projeto
de Data Mining.
8. (FUNDATEC/SEFAZ-RS/2014) Há uma tecnologia que é empregada sobre gran-
des volumes de dados para descobrir novas informações em função de regras e
padrões existentes nesses dados. Normalmente, tais informações não são obtidas
simplesmente consultando os dados armazenados em bancos de dados. Por exem-
plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-
me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas
de fraldas descartáveis, nas sextas-feiras, estava relacionada às vendas de cerveja,
sendo que, geralmente, os compradores eram homens. Como oportunidade de ne-
gócio, a rede varejista colocou os produtos lado a lado, resultando em um aumento
expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa
tecnologia usa diversas técnicas, tais como associação, classificação e predição,
dentre outras. Nesse caso, essa tecnologia é chamada de:

a) Data Mart
b) Data Mining
c) Data Warehouse
d) Business Intelligence
e) OLAP
9. (CESPE/TCE/2016) Julgue os itens a seguir, em relação a data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base
de dados consiste na extração não trivial de conhecimento previamente desconhe-
cido e potencialmente útil.
10. (CESPE/TRT 8/2016) A respeito de sistemas de suporte a decisão, assinale a
opção correta.
As ferramentas de ETL têm como objetivo efetuar extração, transformação e carga
de dados vindos de uma base transacional para um data warehouse (DW). No pro-
cesso de extração, que é o mais demorado dos três, ocorre a limpeza dos dados, a
fim de garantir a qualidade do que será posteriormente carregado na base do DW.
Os operadores de navegação drill-down (navegam entre as hierarquias diminuindo
o nível do detalhe, por exemplo: município > estado) e roll-up (navegam entre as
hierarquias aumentando o nível do detalhe, por exemplo: estado > município) são
considerados básicos e estão implementados em todas as ferramentas de OLAP.
As bases de dados criadas para atender ao data warehouse (DW) são do modelo
relacional (E/R), em que as tabelas representam dados e relacionamentos e são
altamente normalizadas.
Nos processos de análise de inferência, representados pelo data mining, ocorrem
buscas de informação com base em algoritmos que objetivam o reconhecimento de
padrões escondidos nos dados e não revelados por outras abordagens.

Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-
tes operacionais na fase de extração, trabalhados na fase de transformação (ou
staging) e carregados no DW na fase de carga. Quando necessário, um banco de
dados temporário, preparatório para a carga no DW, poderá ser criado na fase de
extração, com características relacionais.
11. (CESPE/FUNPRESP/2016) Julgue os itens subsecutivos, referentes às tecnolo-
gias de bancos de dados.
Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-
ficação para atribuir informação de tipo.
12. (CESPE/PREVIC/2011) Julgue os itens a seguir, relativos aos sistemas de su-
porte a decisão.
Um banco de dados pode conter objetos de dados que não sigam o padrão dos
dados armazenados. Nos métodos de mineração de dados, esses objetos de dados
são tratados como exceção, para que não induzirem a erros na mineração.
13. (CESPE/MEC/2015) Julgue os itens seguintes, referentes a data mining.
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos
de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mu-
tação, para solucionar e agrupar problemas.
14. (CESPE/TJ-CE/2014) Assinale a opção correta acerca de Data Mining.
a) A informação acerca dos resultados obtidos no processo de mineração é apre-
sentada apenas de forma gráfica.
b) A classificação, uma das principais tecnologias da mineração de dados, caracte-
riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada
a um itemset.
c) É possível realizar mineração de dados em documentos textuais como, por
exemplo, uma página da Internet.
d) A grande desvantagem de um Data Mining consiste no fato de que a identifi-
cação de um padrão, para a geração do conhecimento, só é possível por meio da
análise em pequenas quantidades de dados.
e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é
permitido um único tipo de padrão.
15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining
e ETL.
O uso de agrupamento (clustering) em DataMining exige que os registros sejam
previamente categorizados, tendo por finalidade aproximar registros similares para
predizer valores de variáveis.
16. (CESPE/TC-DF/2014) Julgue os itens subsecutivos, com relação a Data Mining,
desempenho de sistemas de bancos de dados e controle de concorrência.
Com o uso da classificação como técnica de Data Mining, busca-se a identificação
de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-
da em conjunto com outras técnicas de mineração de dados.
17. (CESPE/MC/2013) Com relação a soluções de suporte à decisão, julgue os itens
subsecutivos.
Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-
mento em base de dados. Eles são provenientes, automaticamente, do banco de
dados e não há interação manual na descoberta de novos tipos de padrões.
18. (CESPE/MPU/2013) Julgue os próximos itens, acerca de sistemas de suporte à
decisão.
Em se tratando de mineração de dados, a técnica de agrupamento (clustering)
permite a descoberta de dados por faixa de valores, por meio do exame de alguns
atributos das entidades envolvidas.
19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e
ETL.
O processo de transformação de dados pode exigir que dados logicamente relacio-
nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-
tros distintos ou até mesmo estejam em bancos de dados operacionais distintos.
20. (CESGRANRIO/EPE/2012) As técnicas de mineração de dados podem ser cate-
gorizadas em supervisionadas e não supervisionadas.
As técnicas de árvores de decisão, agrupamento e regras de associação são cate-
gorizadas, respectivamente, como:
a) não supervisionada, não supervisionada, não supervisionada
b) não supervisionada, supervisionada e não supervisionada
c) supervisionada, não supervisionada e não supervisionada
d) supervisionada, não supervisionada e supervisionada
e) supervisionada, supervisionada e supervisionada
21. (CESPE/TJ-AC/2012) No que diz respeito a sistemas de suporte a decisão, jul-
gue os itens subsequentes.
O data mining possibilita analisar dados para obtenção de resultados estatísticos
que poderão gerar novas oportunidades ao negócio.
22. (CESPE/TJ-ES/2011) Julgue os itens a seguir, a respeito de administração de
dados e de administração de banco de dados.
Mineração de dados, em seu conceito pleno, consiste na realização, de forma ma-
nual, de sucessivas consultas ao banco de dados com o objetivo de descobrir pa-
drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.
23. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma
ou mais técnica de aprendizagem em computador para, automaticamente, analisar
e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens
seguintes, que versam sobre mineração de dados e KDD.
O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-
visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida
como uma etapa desse processo.
A metodologia para a realização de tarefas de mineração de dados, prescrita pelo
modelo de referência proposto pelo Consórcio CRISP/DM, consiste nas seguintes
fases: entendimento do negócio (business understanding), entendimento dos da-
dos (data understanding), pré-processamento dos dados (data preparation), mo-
delagem (modeling), avaliação dos modelos (evaluation) e colocação do modelo
selecionado em uso (deployment).
25. (CESPE/DATAPREV/2006) Julgue os seguintes itens, acerca de técnicas de mi-
neração de dados.
Outliers são instâncias de dados (observações) atípicas porque se mantêm à dis-
tância anormal das outras instâncias em uma amostra aleatória representativa da
população de onde as instâncias foram extraídas.
26. (CESPE/ANATEL/2009) Data mining (mineração de dados) consiste na análise
de grandes quantidades de dados a fim de encontrar padrões e regras que pos-
sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de
explorar grandes quantidades de dados à procura de padrões consistentes, como
regras de associação ou sequências temporais, para detectar relacionamentos sis-
temáticos entre variáveis, detectando assim novos subconjuntos de dados. Utiliza
várias técnicas da estatística, recuperação de informação, inteligência artificial e
reconhecimento de padrões.
27. (CESPE/IPEA/2008) Com relação a BI (business inteligence), indicadores da
produção, administração da produção, monitoração do ambiente operacional, jul-
gue os próximos itens.
O data mining é um processo utilizado para a extração de dados de grandes repo-
sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados
de um data warehouse.
28. (FEPESE/UFFS/2012) Identifique, dentre os itens abaixo, os que podem ser
utilizadas por processos e sistemas de data mining:
1. Criptografia assíncrona
2. Inteligência artificial
3. Machine learning
4. Estatística
5. Algoritmos genéticos
Assinale a alternativa que indica todos os itens corretos.
a) São corretos apenas os itens 2, 3 e 4.
b) São corretos apenas os itens 2, 3 e 5.
c) São corretos apenas os itens 1, 2, 3 e 5.
d) São corretos apenas os itens 2, 3, 4 e 5.
e) São corretos os itens 1, 2, 3, 4 e 5.
29. (CESPE/TCU/2007) Nos sistemas de suporte a decisão (SSD), os dados são
coletados em data warehouses e a análise de dados pode ser realizada por meio
de processamento analítico online (OLAP) e data mining. Julgue os itens seguintes,
sobre SSD, OLAP e data mining.
No data mining, o agrupamento e a classificação funcionam de maneira similar: o
agrupamento reconhece os padrões que descrevem o grupo ao qual um item per-
tence, examinando os itens existentes; a classificação é aplicada quando nenhum
grupo foi ainda definido.
GABARITO
1. e 26. C
2. a 27. E
3. d 28. d
4. E 29. e
5. E
6. C
7. E
8. b
9. C
10. d
11. C
12. E
13. C
14. c
15. E
16. C
17. E
18. C
19. C
20. c
21. C
22. E
23. C
24. C
25. C
GABARITO COMENTADO
1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que:
a) Refere-se à implementação de banco de dados paralelos.
b) Consiste em armazenar o banco de dados em diversos computadores.
c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes-
mo intervalo de tempo.
d) Permite-se distinguir várias entidades de um conjunto.
e) Refere-se à busca de informações relevantes a partir de um grande volume de
dados.
Letra e.
Uma simplificação do conceito de mineração de dados, mas, ainda assim, não deixa
de estar correta.
2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar:
a) É o processo de descoberta de novas correlações, padrões e tendências entre
as informações de uma empresa, por meio da análise de grandes quantidades de
dados armazenados em bancos de dados usando técnicas de reconhecimento de
padrões, estatísticas e matemáticas.
b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-
seguem determinar de forma completa e eficiente o valor dos padrões encontrados.
c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam
sistematicamente “simplificados”, de forma a desconsiderar aquilo que é genérico
e privilegiar aquilo que é específico.
d) É um grande banco de dados voltado para dar suporte necessário nas decisões
de usuários finais, geralmente gerentes e analistas de negócios.

e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a
partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade,
são consistentes e habilitam descobertas abrangentes e precisas.
Letra a.
Repare sempre nas palavras rotineiramente associadas ao conceito de mineração
de dados: reconhecimento de padrões, tendências, grande volume de dados. Assim
sendo, concluímos que a resposta certa é a letra “a”.
3. (FCC/TRT 11/2017) Sistemas do tipo I e do tipo II realizam tarefas diferentes,
porém complementares. O tipo I é adequado para atividades como indexação de
dados, alocação de custos, análises de séries temporais e análises “what-if”. Po-
rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências
indutivas, processo que permite chegar a conclusões genéricas a partir de exem-
plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas
do tipo I fornecem uma visão multidimensional de dados, incluindo suporte a hie-
rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-
ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-
contrar padrões e relações entre as informações disponíveis em bancos de dados.
Os sistemas do tipo II podem encontrar informações ocultas nos dados disponíveis,
mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a
organização.
Os sistemas do tipo I e II são, correta e respectivamente,
a) Data Warehouse e Data Mining.
b) Banco de Dados Multidimensional e Banco de Dados Relacional.
c) Data Mining e Data Warehouse.

d) OLAP e Data Mining.
e) OLAP e Data Warehouse.
Letra d.
As características citadas dos sistemas tipo I remetem ao conceito de OLAP
(Online Analytical Processing); enquanto as dos sistemas tipo II, referem-se ao
Data Mining.
4. (CESPE/ANATEL/2014) A respeito de banco de dados, julgue os itens que se
seguem.
No processo de Data Mining (mineração de dados), é indispensável o uso de téc-
nica conhecida como Data Warehousing, uma vez que a mineração de dados deve
ocorrer necessariamente em estruturas não normalizadas (FN0).
Errado.
Data Mining não precisa obrigatoriamente de um Data Warehouse para funcionar.
5. (CESPE/TJDFT/2015) Julgue o item a seguir, a respeito de Data Warehouse e de
Data Mining.
Em um processo de mineração, durante a etapa de preparação dos dados, são ana-
lisados os requisitos de negócio para consolidar os dados.
Errado.
Baseando-se no modelo CRISP-DM, o entendimento do negócio é a primeira etapa
do processo, e não está embutido na etapa de preparação de dados. Veja no resu-
mo a sequência das etapas do CRISP-DM.
6. (CESPE/TCE-SC/2016) Julgue os itens, acerca de mineração de dados.
Para a realização de prognósticos por meio de técnicas de mineração de dados, par-
te-se de uma série de valores existentes obtidos de dados históricos bem como de
suposições controladas a respeito das condições futuras, para prever outros valores
e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.
Certo.
Basta lembrar da definição de mineração de dados para verificarmos que a afirma-
ção está correta.
7. (CESPE/TCE/2016) CRISP-DM é uma metodologia proprietária que identifica as
fases Business Understanding e Data Understanding na implantação de um projeto
de Data Mining.
Errado.
O padrão CRISP-DM foi criado por um consórcio que queria desenvolver um modelo
que funcionasse em qualquer tipo de negócio, sendo gratuito e não proprietário. Ou
seja, item errado.
8. (FUNDATEC/SEFAZ-RS/2014) Há uma tecnologia que é empregada sobre gran-
des volumes de dados para descobrir novas informações em função de regras e
padrões existentes nesses dados. Normalmente, tais informações não são obtidas
simplesmente consultando os dados armazenados em bancos de dados. Por exem-
plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-
me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas
de fraldas descartáveis, nas sextas-feiras, estava relacionada às vendas de cerveja,
sendo que, geralmente, os compradores eram homens. Como oportunidade de ne-
gócio, a rede varejista colocou os produtos lado a lado, resultando em um aumento
expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa
tecnologia usa diversas técnicas, tais como associação, classificação e predição,
dentre outras. Nesse caso, essa tecnologia é chamada de:
a) Data Mart
b) Data Mining
c) Data Warehouse
d) Business Intelligence
e) OLAP
Letra b.
Novamente, conceito de mineração de dados e ainda mencionou algumas técnicas
relacionadas, como associação e classificação. Letra “b” correta.
9. (CESPE/TCE/2016) Julgue os itens a seguir, em relação a data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base
de dados consiste na extração não trivial de conhecimento previamente desconhe-
cido e potencialmente útil.
Certo.
Essa definição, inclusive, foi citada em nossas explicações no decorrer do capítulo,
quando tratamos sobre KDD.
10. (CESPE/TRT 8/2016) A respeito de sistemas de suporte a decisão, assinale a
opção correta.
a) As ferramentas de ETL têm como objetivo efetuar extração, transformação e
carga de dados vindos de uma base transacional para um data warehouse (DW). No
processo de extração, que é o mais demorado dos três, ocorre a limpeza dos dados,
a fim de garantir a qualidade do que será posteriormente carregado na base do DW.
b) Os operadores de navegação drill-down (navegam entre as hierarquias dimi-
nuindo o nível do detalhe, por exemplo: município > estado) e roll-up (navegam
entre as hierarquias aumentando o nível do detalhe, por exemplo: estado > muni-
cípio) são considerados básicos e estão implementados em todas as ferramentas
de OLAP.
c) As bases de dados criadas para atender ao data warehouse (DW) são do modelo
relacional (E/R), em que as tabelas representam dados e relacionamentos e são
altamente normalizadas.
d) Nos processos de análise de inferência, representados pelo data mining, ocor-
rem buscas de informação com base em algoritmos que objetivam o reconhecimen-
to de padrões escondidos nos dados e não revelados por outras abordagens.
e) Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-
tes operacionais na fase de extração, trabalhados na fase de transformação (ou
staging) e carregados no DW na fase de carga. Quando necessário, um banco de
dados temporário, preparatório para a carga no DW, poderá ser criado na fase de
extração, com características relacionais.
Letra d.
Utilização de algoritmos que visam reconhecimento de padrões remetem à defini-
ção de mineração de dados.
11. (CESPE/FUNPRESP/2016) Julgue os itens subsecutivos, referentes às tecnolo-
gias de bancos de dados.
Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-
ficação para atribuir informação de tipo.
Certo.
Árvore de decisão é uma das técnicas que podem ser usadas por tarefas de classi-
ficação.
12. (CESPE/PREVIC/2011) Julgue os itens a seguir, relativos aos sistemas de su-
porte a decisão.
Um banco de dados pode conter objetos de dados que não sigam o padrão dos
dados armazenados. Nos métodos de mineração de dados, esses objetos de dados
são tratados como exceção, para que não induzirem a erros na mineração.
Errado.
Para tais casos existe a etapa de preparação dos dados do modelo CRISP-DM. Os
dados são efetivamente tratados e não categorizados com exceção.
13. (CESPE/MEC/2015) Julgue os itens seguintes, referentes a data mining.
Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos
de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mu-
tação, para solucionar e agrupar problemas.
Certo.
Basta lembrar que o algoritmo genético é baseado na teoria da seleção natural de
Charles Darwin, ou seja, evolução e seleção natural.
14. (CESPE/TJ-CE/2014) Assinale a opção correta acerca de Data Mining.
a) A informação acerca dos resultados obtidos no processo de mineração é apre-
sentada apenas de forma gráfica.
b) A classificação, uma das principais tecnologias da mineração de dados, caracte-
riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada
a um itemset.
c) É possível realizar mineração de dados em documentos textuais como, por
exemplo, uma página da Internet.
d) A grande desvantagem de um Data Mining consiste no fato de que a identifi-
cação de um padrão, para a geração do conhecimento, só é possível por meio da
análise em pequenas quantidades de dados.
e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é
permitido um único tipo de padrão.
Letra c.
Textos são passíveis de mineração, vide o tópico que tratamos de mineração de
texto.
15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL.
O uso de agrupamento (clustering) em DataMining exige que os registros sejam
previamente categorizados, tendo por finalidade aproximar registros similares para
predizer valores de variáveis.
Errado.
Clustering é aprendizado não supervisionado. Não há necessidade de categorização
prévia, quem precisa disso é Classificação.
16. (CESPE/TC-DF/2014) Julgue os itens subsecutivos, com relação a Data Mining,
desempenho de sistemas de bancos de dados e controle de concorrência.
Com o uso da classificação como técnica de Data Mining, busca-se a identificação
de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-
da em conjunto com outras técnicas de mineração de dados.
Certo.
Os atributos mencionados subsidiam o aprendizado supervisionado, permitindo a
identificação da classe de um registro.
17. (CESPE/MC/2013) Com relação a soluções de suporte à decisão, julgue os itens
subsecutivos.
Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-
mento em base de dados. Eles são provenientes, automaticamente, do banco de
dados e não há interação manual na descoberta de novos tipos de padrões.
Errado.
Há várias tarefas manuais que precisam ser executadas na mineração de dados,
desde a seleção das informações até a validação do conhecimento minerado.
18. (CESPE/MPU/2013) Julgue os próximos itens, acerca de sistemas de suporte à
decisão.
Em se tratando de mineração de dados, a técnica de agrupamento (clustering)
permite a descoberta de dados por faixa de valores, por meio do exame de alguns
atributos das entidades envolvidas.
Certo.
Não há erro na afirmação acima.

19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL.
O processo de transformação de dados pode exigir que dados logicamente relacio-
nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-
tros distintos ou até mesmo estejam em bancos de dados operacionais distintos.
Certo.
A transformação de dados pode correlacionar esses dados fisicamente separados,
de forma a dar sentido a eles, criando dados derivados, por exemplo.
20. (CESGRANRIO/EPE/2012) As técnicas de mineração de dados podem ser cate-
gorizadas em supervisionadas e não supervisionadas.
As técnicas de árvores de decisão, agrupamento e regras de associação são cate-
gorizadas, respectivamente, como:
a) não supervisionada, não supervisionada, não supervisionada
b) não supervisionada, supervisionada e não supervisionada
c) supervisionada, não supervisionada e não supervisionada
d) supervisionada, não supervisionada e supervisionada
e) supervisionada, supervisionada e supervisionada
Letra c.
Devemos, nesse caso, nos lembrar das definições de aprendizado supervisionado
(com base em exemplos ou indicações) e não supervisionado (não precisa de clas-
sificação prévia). Árvores de decisão (classificação) são consideradas de apren-
dizado supervisionado. Agrupamento (clustering) e regras de associação são de
aprendizado não supervisionado.
21. (CESPE/TJ-AC/2012) No que diz respeito a sistemas de suporte a decisão, jul-
gue os itens subsequentes.
O data mining possibilita analisar dados para obtenção de resultados estatísticos
que poderão gerar novas oportunidades ao negócio.
Certo.
Os resultados da mineração permitem subsidiar as decisões gerenciais, ainda mais
se os modelos corretos forem gerados, criando previsões de ocorrências com base
no histórico.
22. (CESPE/TJ-ES/2011) Julgue os itens a seguir, a respeito de administração de
dados e de administração de banco de dados.
Mineração de dados, em seu conceito pleno, consiste na realização, de forma ma-
nual, de sucessivas consultas ao banco de dados com o objetivo de descobrir pa-
drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.
Errado.
Uma das ideias da mineração de dados é justamente a captação de insights que
não puderam ser captados anteriormente por outros tipos de análise ou por veri-
ficações manuais. Além do mais, as consultas realizadas pelos algoritmos não são
realizadas de forma manual.

O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-
visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida
como uma etapa desse processo.
Certo.
A mineração de dados é um componente do processo de descoberta de conheci-
mento em base de dados.
A metodologia para a realização de tarefas de mineração de dados, prescrita pelo
modelo de referência proposto pelo Consórcio CRISP/DM, consiste nas seguintes
fases: entendimento do negócio (business understanding), entendimento dos da-
dos (data understanding), pré-processamento dos dados (data preparation), mo-
delagem (modeling), avaliação dos modelos (evaluation) e colocação do modelo
selecionado em uso (deployment).
Certo.
São as seis etapas do modelo CRISP-DM. A última etapa listada também pode ser
chamada de implantação.
25. (CESPE/DATAPREV/2006) Julgue os seguintes itens, acerca de técnicas de mi-
neração de dados.
Outliers são instâncias de dados (observações) atípicas porque se mantêm à dis-
tância anormal das outras instâncias em uma amostra aleatória representativa da
população de onde as instâncias foram extraídas.
Certo.
Simplificando o exposto, são dados discrepantes, que podem representar uma ten-
dência, um dado verdadeiro, um erro, ou até uma fraude. Então, deve-se ter muito
cuidado antes de proceder qualquer tipo de ação com um outlier.
26. (CESPE/ANATEL/2009) Data mining (mineração de dados) consiste na análise
de grandes quantidades de dados a fim de encontrar padrões e regras que pos-
sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de
explorar grandes quantidades de dados à procura de padrões consistentes, como
regras de associação ou sequências temporais, para detectar relacionamentos sis-
temáticos entre variáveis, detectando assim novos subconjuntos de dados. Utiliza
várias técnicas da estatística, recuperação de informação, inteligência artificial e
reconhecimento de padrões.
Certo.
Questão que aborda, novamente, o conceito de mineração de dados.
27. (CESPE/IPEA/2008) Com relação a BI (business inteligence), indicadores da
produção, administração da produção, monitoração do ambiente operacional, jul-
gue os próximos itens.
O data mining é um processo utilizado para a extração de dados de grandes repo-
sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados
de um data warehouse.
Errado.
Não há impeditivo algum de um processo de data mining analisar dados de um data
warehouse.
28. (FEPESE/UFFS/2012) Identifique, dentre os itens abaixo, os que podem ser
utilizadas por processos e sistemas de data mining:
1. Criptografia assíncrona
2. Inteligência artificial
3. Machine learning
4. Estatística
5. Algoritmos genéticos
Assinale a alternativa que indica todos os itens corretos.
a) São corretos apenas os itens 2, 3 e 4.
b) São corretos apenas os itens 2, 3 e 5.
c) São corretos apenas os itens 1, 2, 3 e 5.
d) São corretos apenas os itens 2, 3, 4 e 5.
e) São corretos os itens 1, 2, 3, 4 e 5.
Letra d.
Repare que todos os termos listados foram abordados por nós em algum momento
durante este capítulo, com exceção do item criptografia assíncrona. Logo, a alter-
nativa correta é a letra “d”.
29. (CESPE/TCU/2007) Nos sistemas de suporte a decisão (SSD), os dados são
coletados em data warehouses e a análise de dados pode ser realizada por meio
de processamento analítico online (OLAP) e data mining. Julgue os itens seguintes,
sobre SSD, OLAP e data mining.

No data mining, o agrupamento e a classificação funcionam de maneira similar: o
agrupamento reconhece os padrões que descrevem o grupo ao qual um item per-
tence, examinando os itens existentes; a classificação é aplicada quando nenhum
grupo foi ainda definido.
Errado.
Agrupamento e classificação são coisas distintas. Agrupamento (clusterização) é
aprendizado não supervisionado; classificação é aprendizado supervisionado.

Cópia de Cópia de 5220360-Mineracao-De-Dados PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cópia de Cópia de 5220360-Mineracao-De-Dados PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Sefaz-df

7. Análise de Agrupamentos (Clusterização).................................................. 20

Conforme falamos anteriormente, o volume de dados não estruturados é imen-

samente maior, se comparado ao de dados estruturados. Para se ter uma ideia,

dados não estruturados é imensamente mais complexo. Técnicas tradicionais não

resolvem o problema. Para extrair conhecimento desse volume de dados é preciso

fazer correlações, identificar padrões e descobrir tendências entre eles.

Pensando nisso, foi proposta a Mineração de Dados (Data Mining, em inglês).

Mas no que consiste o Data Mining?

1. NOÇÕES DE MINERAÇÃO DE DADOS: CONCEITUAÇÃO E CARAC-

Alguns tratam como novidade, mas, na verdade, é um conjunto de tecnologias

mente abordado no próximo capítulo).

A mineração de dados consiste no uso de tecnologias e técnicas que permitem

explorar grandes volumes de dados (geralmente referentes a negócios, pesquisas

científicas ou análises de mercados), procurando por padrões e tendências, utili-

zando análises complexas. Ela utiliza algoritmos sofisticados para segmentar os

dados e avaliar a probabilidade de ocorrência de determinados eventos. Ou seja,

utilizando estatística, inteligência artificial e aprendizado de máquina, temos infini-

tas possibilidades para o conhecimento extraído dessa massa de dados.

tomada de decisão. Os resultados das análises realizadas pelos processos de mi-

antecipadamente tendências, problemas, anomalias, enfim, vários itens que não

neração analisam os dados, descobrem problemas ou oportunidades escondidas

nos relacionamentos dos dados, definindo um padrão de comportamento. Com

apenas em como utilizá-lo da melhor forma possível, pois o trabalho de garimpar

os dados já foi realizado pela ferramenta de mineração de dados.

A ideia da mineração de dados é: em vez do usuário definir o problema, sele-

cionar os dados e as ferramentas para analisar tais dados, o processo de minera-

ção pesquisa automaticamente os mesmos a procura de anomalias e possíveis re-

lacionamentos, identificando, assim, problemas que não tinham sido identificados

Suas principais propriedades são:

• detecção automática de padrões;

• geração de informação para ações práticas;

• foco em grandes conjuntos e bancos de dados.

Para se ter uma ideia da abrangência da aplicabilidade da mineração de dados,

• seguros: seguradoras podem resolver problemas complexos relativos à frau-

de, conformidade, gerenciamento de riscos e atrito com os clientes, prevenir

• educação: através da análise dos dados da evolução dos alunos, educadores

podem montar planos de aula mais assertivos para o melhor desenvolvimento

mercado, detectar fraudes mais rápido, gerenciar obrigações de conformida-

de regulatória e identificar padrões para auxiliar no gerenciamento de rela-

cionamento com o cliente;

mais rápidas nas áreas de segurança e saúde, reduzir fraudes na previdência

e otimizar a gestão dos recursos públicos;

• assistência médica: as seguradoras de saúde podem reduzir as reclamações

de fraudes, integridades de pagamentos, os prestadores de serviços hospita-

lares podem prover diagnósticos mais precisos aos pacientes e os pacientes

podem receber cuidados mais acessíveis e seguros;

• cartão de crédito: identificar segmentos de mercado, identificar padrões de

• medicina: indicação de diagnósticos mais precisos;

• recursos humanos: identificação de competências em currículos;

• tomada de decisão: filtrar as informações relevantes, fornecer indicadores de

O uso da Mineração de Dados permite, por exemplo, que:

• um supermercado melhore a disposição de seus produtos nas prateleiras,

através do padrão de consumo de seus clientes;

• uma companhia de marketing direcione o envio de mensagens promocionais,

obtendo melhores retornos;

• uma empresa aérea possa diferenciar seus serviços oferecendo um atendi-

• empresas planejem melhor a logística de distribuição dos seus produtos, pre-

vendo picos nas vendas;

• agências de viagens possam aumentar o volume de vendas direcionando seus

pacotes a clientes com aquele perfil.

2. MODELO DE REFERÊNCIA CRISP-DM

CRISP-DM é a abreviação de CRoss Industry Standard Process for Data Mining,