Você está na página 1de 57

Sefaz-df

ANÁLISE DE INFORMAÇÕES
Mineração de dados
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

SUMÁRIO
Introdução.................................................................................................3
1. Noções de Mineração de Dados: Conceituação e Características.....................4
2. Modelo de Referência Crisp-DM..................................................................6
3. Técnicas para Pré-processamento de Dados................................................9
4. Técnicas e Tarefas de Mineração de Dados................................................ 15
5. Classificação......................................................................................... 18

6. Regras de Associação............................................................................. 19

7. Análise de Agrupamentos (Clusterização).................................................. 20


8. Detecção de Anomalias........................................................................... 20
9. Modelagem Preditiva.............................................................................. 21
10. Aprendizado de Máquina....................................................................... 23
11. Mineração de Texto.............................................................................. 24
Resumo.................................................................................................... 30
Questões de Concurso................................................................................ 32
Gabarito................................................................................................... 42
Gabarito Comentado.................................................................................. 43

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 2 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Introdução

Conforme falamos anteriormente, o volume de dados não estruturados é imen-

samente maior, se comparado ao de dados estruturados. Para se ter uma ideia,

estudos dizem que o conteúdo digital dobra a cada dois anos no mundo.

Sendo assim, o que devemos fazer para conseguir obter conhecimento desse

volume imenso de dados? Afinal, isso não é tarefa trivial, pois o tratamento de

dados não estruturados é imensamente mais complexo. Técnicas tradicionais não

resolvem o problema. Para extrair conhecimento desse volume de dados é preciso

fazer correlações, identificar padrões e descobrir tendências entre eles.

Pensando nisso, foi proposta a Mineração de Dados (Data Mining, em inglês).

Mas no que consiste o Data Mining?

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 3 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

1. NOÇÕES DE MINERAÇÃO DE DADOS: CONCEITUAÇÃO E CARAC-


TERÍSTICAS

Alguns tratam como novidade, mas, na verdade, é um conjunto de tecnologias

relativamente antigo, proposto lá pelo fim dos anos 80. Continua evoluindo até

hoje, principalmente pela sua estreita relação com o Big Data (que será detalhada-

mente abordado no próximo capítulo).

A mineração de dados consiste no uso de tecnologias e técnicas que permitem

explorar grandes volumes de dados (geralmente referentes a negócios, pesquisas

científicas ou análises de mercados), procurando por padrões e tendências, utili-

zando análises complexas. Ela utiliza algoritmos sofisticados para segmentar os

dados e avaliar a probabilidade de ocorrência de determinados eventos. Ou seja,

utilizando estatística, inteligência artificial e aprendizado de máquina, temos infini-

tas possibilidades para o conhecimento extraído dessa massa de dados.

A mineração de dados deve ser adotada para tornar mais eficiente o apoio à

tomada de decisão. Os resultados das análises realizadas pelos processos de mi-

neração agregam valor a decisões estratégicas, uma vez que permitem detectar

antecipadamente tendências, problemas, anomalias, enfim, vários itens que não

puderam ser detectados por um ser humano. Desse modo, as ferramentas de mi-

neração analisam os dados, descobrem problemas ou oportunidades escondidas

nos relacionamentos dos dados, definindo um padrão de comportamento. Com

base nesse resultado, aquele que for usufruir dessa análise precisará se preocupar

apenas em como utilizá-lo da melhor forma possível, pois o trabalho de garimpar

os dados já foi realizado pela ferramenta de mineração de dados.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 4 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

A ideia da mineração de dados é: em vez do usuário definir o problema, sele-

cionar os dados e as ferramentas para analisar tais dados, o processo de minera-

ção pesquisa automaticamente os mesmos a procura de anomalias e possíveis re-

lacionamentos, identificando, assim, problemas que não tinham sido identificados

pelo usuário.

Suas principais propriedades são:

• detecção automática de padrões;

• predição de eventos;

• geração de informação para ações práticas;

• foco em grandes conjuntos e bancos de dados.

Para se ter uma ideia da abrangência da aplicabilidade da mineração de dados,

veja alguns exemplos em que ela pode ser utilizada nos mais diversos campos de

atuação:

• seguros: seguradoras podem resolver problemas complexos relativos à frau-

de, conformidade, gerenciamento de riscos e atrito com os clientes, prevenir

cancelamentos.

• educação: através da análise dos dados da evolução dos alunos, educadores

podem montar planos de aula mais assertivos para o melhor desenvolvimento

da turma;

• serviços financeiros: ajudar bancos a obter uma melhor visão dos riscos de

mercado, detectar fraudes mais rápido, gerenciar obrigações de conformida-

de regulatória e identificar padrões para auxiliar no gerenciamento de rela-

cionamento com o cliente;

• Governo: dispondo dos dados corretos, o setor público pode tomar decisões

mais rápidas nas áreas de segurança e saúde, reduzir fraudes na previdência

e otimizar a gestão dos recursos públicos;


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 5 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• assistência médica: as seguradoras de saúde podem reduzir as reclamações

de fraudes, integridades de pagamentos, os prestadores de serviços hospita-

lares podem prover diagnósticos mais precisos aos pacientes e os pacientes

podem receber cuidados mais acessíveis e seguros;

• cartão de crédito: identificar segmentos de mercado, identificar padrões de

rotatividade;

• medicina: indicação de diagnósticos mais precisos;

• recursos humanos: identificação de competências em currículos;

• tomada de decisão: filtrar as informações relevantes, fornecer indicadores de

probabilidade.

O uso da Mineração de Dados permite, por exemplo, que:

• um supermercado melhore a disposição de seus produtos nas prateleiras,

através do padrão de consumo de seus clientes;

• uma companhia de marketing direcione o envio de mensagens promocionais,

obtendo melhores retornos;

• uma empresa aérea possa diferenciar seus serviços oferecendo um atendi-

mento personalizado;

• empresas planejem melhor a logística de distribuição dos seus produtos, pre-

vendo picos nas vendas;

• agências de viagens possam aumentar o volume de vendas direcionando seus

pacotes a clientes com aquele perfil.

2. MODELO DE REFERÊNCIA CRISP-DM

CRISP-DM é a abreviação de CRoss Industry Standard Process for Data Mining,

que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de

Dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 6 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

É um modelo de processo de mineração de dados que descreve abordagens comu-

mente usadas por especialistas em mineração de dados para atacar problemas.

O padrão CRISP foi concebido por volta de 1996 e não se restringe a uma ferra-

menta ou tecnologia específica. Sua origem se deve principalmente à necessidade

da geração de modelos com foco na qualidade através da padronização de concei-

tos e técnicas na busca de informações para a tomada de decisões.

Foi proposta uma metodologia que pudesse auxiliar os administradores e res-

ponsáveis pelos processos de planejar e executar a mineração de dados, engloban-

do desde a especificação do processo até a apresentação dos resultados obtidos.

O processo CRISP-DM consiste em seis fases, que são organizadas de maneira

cíclica. Repare na figura abaixo que o fluxo entre as fases não possui sentido único.

Podemos avançar ou voltar entre as fases, caso necessário.

Figura 1: Fases do padrão CRISP-DM

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 7 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

As fases do CRISP-DM são:

1. Entendimento do negócio: trata-se dos objetivos do projeto e requerimen-

tos para a perspectiva do negócio. Aqui, o foco é entender qual o objetivo que se

deseja atingir com a mineração de dados. Essa fase é essencial para as seguintes.

2. Entendimento dos dados: nesta fase, podemos ter várias fontes de dados

armazenadas em locais distintos e com formatos diferentes. De posse dos dados a

serem analisados, devemos buscar compreendê-los e organizá-los. Com base no

que foi levantado na fase anterior, devemos identificar os dados relevantes para

que nossos objetivos sejam alcançados.

3. Preparação dos dados: obviamente, os dados não entregarão facilmen-

te as informações que buscamos para cumprirmos nossos objetivos. Afinal, eles

vêm de fontes e locais distintos, impossibilitando que a mineração de dados pos-

sa ser realizada.

Não existe uma sequência de tarefas, nem um limite para que elas sejam exe-

cutadas. Dependendo da qualidade desses dados, um processo de limpeza pode

ser necessário e, geralmente, envolve filtrar, combinar e preencher valores vazios.

4. Modelagem: é nesta fase que as técnicas (algoritmos) de mineração são

aplicadas. Você pode aplicar uma ou mais técnicas, tudo depende do objetivo a ser

alcançado. Aqui são criados modelos (equações ou outros modelos lógicos) que se

pode usar para dar suporte às decisões de negócios.

5. Avaliação: seria a validação do que foi feito até o momento. Antes de fina-

lizarmos nosso projeto, é importante revisar o que foi feito até aqui para garantir

que os objetivos levantados sejam atingidos. É nessa fase que descobrimos se os

modelos são bons o suficiente. Veja novamente a figura e repare que a etapa de

avaliação pode retornar para a etapa de entendimento do negócio, caso necessá-

rio. Um levantamento mal feito pode resultar em perda de tempo que poderia até

inviabilizar o projeto.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 8 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Diversas ferramentas gráficas são utilizadas para a visualização e análise dos

resultados (modelos). Testes e validações, visando obter a confiabilidade nos mo-

delos, devem ser executados; e indicadores para auxiliar a análise dos resultados

precisam ser obtidos.

6. Implantação: fase onde ocorre a integração do modelo no dia a dia da em-

presa. O conhecimento adquirido pelo modelo é organizado e apresentado de uma

maneira que o cliente possa utilizar. A fase de implantação pode ser simples como

gerar um relatório ou uma implementação complexa de um processo de Data Mining

que possa ser repetido.

E, assim, finalizamos um ciclo do CRISP-DM, que pode ser executado novamen-

te, caso necessário.

As 6 fases do CRISP-DM
Entendimento do negócio Entender qual o objetivo a ser atingido
Entendimento dos dados Compreender e organizar os dados
Preparação dos dados Limpar os dados
Modelagem Aplicação das técnicas de mineração
Avaliação Verificar se o que foi feito até agora está certo
Implantação Hora de colocar o modelo em produção

3. TÉCNICAS PARA PRÉ-PROCESSAMENTO DE DADOS

A mineração de dados é uma tecnologia que é composta, basicamente, por

três áreas: estatística, inteligência artificial e aprendizado de máquina. O que se

espera com a Mineração de Dados é obter conhecimento, na forma de regras ou

de estruturas equivalentes, que oriente uma decisão. Além disso, quando aplicado

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 9 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

de modo inteligente, esse conhecimento nos permite, conforme veremos de for-

ma mais detalhada a seguir, fazer previsões, descobrir novas associações, refinar

agrupamentos efetuados por critério de semelhança ou certificar-se de anomalias

de comportamento.

A mineração de dados é parte de um processo maior, conhecido como KDD

(Knowledge Discovery in Databases) – em português, Descoberta de Conhecimen-

to em Bases de Dados. A definição de KDD dada por FAYYAD et al. (1996) resume

bem do que se trata:

processo, não trivial, de extração de informações implícitas, previamente desconhecidas


e potencialmente úteis, a partir dos dados armazenados em um banco de dados.

O processo KDD é constituído de várias etapas, que são executadas de forma

interativa e iterativa. São interativas porque envolvem a cooperação da pessoa res-

ponsável pela análise de dados, cujo conhecimento sobre o domínio orientará a exe-

cução do processo. Por sua vez, a iteração deve-se ao fato de que, com frequência,

esse processo não é executado de forma sequencial, mas envolve repetidas sele-

ções de parâmetros e conjunto de dados; aplicações das técnicas de mineração de

dados e posterior análise dos resultados obtidos, a fim de refinar os conhecimentos

extraídos.

É importante destacar que cada técnica de mineração de dados utilizada para

conduzir as operações adapta-se melhor a alguns problemas do que a outros, o que

impossibilita a existência de um método universalmente melhor. Para cada proble-

ma particular, tem-se uma técnica particular.

Os desenvolvedores projetam as bases de dados, descrevem problemas e

definem objetivos, enquanto os computadores processam os dados e procuram

padrões que coincidam com os objetivos estabelecidos. Isto faz da KDD um pro-

cesso cooperativo.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 10 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

O processo de busca de conhecimento contém uma série de passos: seleção,

pré-processamento e limpeza, transformação, mineração de dados e interpretação/

avaliação. Simplificando: pode-se dizer que o processo de KDD compreende, na

verdade, todo o ciclo que o dado percorre até virar informação, conforme pode ser

visto na figura abaixo:

Figura 2: Fases da Descoberta de Conhecimento em Bases de Dados

Embora esses passos devam ser executados na ordem apresentada, o processo

é interativo, pois o usuário pode (e muitas vezes necessita) continuamente inter-

vir e controlar o curso das atividades, e iterativo, por ser uma sequência finita de

operações em que o resultado de cada uma é dependente dos resultados das que

a precedem.

Abaixo temos um resumo sobre as fases do KDD:

Seleção

A fase de seleção de dados é a primeira no processo de descobrimento de in-

formação e possui impacto significativo sobre a qualidade do resultado final. Nessa

fase é escolhido o conjunto de dados contendo todas as possíveis variáveis (tam-

bém chamadas de características ou atributos) e registros (também chamados de

casos ou observações) que farão parte da análise. Normalmente, essa escolha dos

dados fica a critério de um especialista do domínio, ou seja, alguém que realmente

entende do assunto em questão.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 11 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

O processo de seleção é bastante complexo, uma vez que os dados podem vir

de uma série de fontes e podem possuir os mais diversos formatos. É comum ocor-

rer a necessidade de se criar uma rotina específica para a carga dos dados, já que

nem sempre as ferramentas de carga existentes conseguem dar conta das peculia-

ridades de cada aplicação.

Pré-processamento e Limpeza

O Pré-processamento e limpeza dos dados é uma parte crucial no processo

de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de

mineração. Nessa etapa deverão ser realizadas tarefas que eliminem dados redun-

dantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados

discrepantes ao conjunto.

O auxílio de um especialista do domínio é fundamental, pois, na maioria dos

casos, apenas alguém que realmente entende do assunto é capaz de dizer se um

dado realmente não pertence ao conjunto ou se é apenas um erro de digitação.

Nessa fase também são utilizados métodos de redução ou transformação para

diminuir o número de variáveis envolvidas no processo, visando, com isso, melho-

rar o desempenho do algoritmo de análise.

A identificação de dados inapropriados dentro do conjunto selecionado é pro-

blemática, e isso dificulta a automatização dessa fase. Definir um dado como

“ruim” dentro do conjunto depende da estrutura dele e também de que aplicação

é dada a ele.

Um problema bastante comum nessa fase é a existência de registros com dados

incompletos, seja por falhas no processo de seleção ou de revisão. O tratamento

desses casos é necessário para que os resultados do processo de mineração sejam

confiáveis. Podemos usar as seguintes soluções para tratarmos a ausência de dados:


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 12 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• fazer a previsão dos dados ausentes e completá-los individualmente;

• substituir o valor faltante pela média aritmética da variável;

• excluir o registro inteiro.

Devemos também ficar atentos a situações em que os dados possuem valores

extremos, atípicos ou com características bastante distintas dos demais registros.

Eles são chamados de discrepantes, ou outliers.

Normalmente, registros que contêm valores outliers são descartados da amos-

tra, porém, isso só deve ocorrer quando o dado outlier representar um erro de ob-

servação, de medida ou algum outro problema similar.

O dado deve ser cuidadosamente analisado antes da exclusão, pois, embora

atípico, o valor pode representar um dado verdadeiro. Outliers podem representar,

por exemplo, um comportamento não usual, uma tendência ou ainda transações

fraudulentas.

Transformação dos Dados

A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining.

Após serem selecionados, limpos e pré-processados, os dados necessitam ser ar-

mazenados e formatados adequadamente para que os algoritmos possam ser apli-

cados.

Em grandes corporações é comum encontrar computadores rodando diferentes

sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados

(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-

rio único.

Além disso, nessa fase, se necessário, é possível obter dados faltantes através

da transformação ou combinação de outros, são os chamados “dados derivados”.

Um exemplo de um dado que pode ser calculado a partir de outro é a idade de


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 13 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Outro

exemplo é o valor total de um financiamento, que pode ser calculado a partir da

multiplicação do número de parcelas pelo valor da parcela.

Após serem selecionados, limpos e pré-processados os dados necessitam ser

armazenados e formatados adequadamente para que os algoritmos de aprendizado

possam ser aplicados.

Em grandes corporações é comum encontrar computadores rodando diferentes

sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados

(SGDB). Esses dados que estão dispersos devem ser agrupados em um repositó-

rio único.

Mineração de Dados

Todas as etapas do processo são importantes para o sucesso dele. Entretanto, é

a etapa de Mineração de Dados que recebe o maior destaque na literatura (e a que

mais nos interessa, nesse caso).

Interpretação e Avaliação

Consiste no tratamento (visualização, análise e interpretação) do conhecimento

minerado. De forma geral, nessa etapa é que o especialista do domínio de aplicação

e o engenheiro do conhecimento analisam os resultados abstraídos.

Essa é mais uma fase que deve ser feita em conjunto com um ou mais espe-

cialistas no assunto. O conhecimento adquirido através da técnica de data mining

deve ser interpretado e avaliado para que o objetivo final seja alcançado.

Caso o resultado não seja satisfatório, o que não é raro, o processo pode retor-

nar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado, confor-

me pode ser observado na Figura 3.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 14 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Figura 3: Fases do KDD

Duas das ações mais comuns, caso o resultado não seja satisfatório são: modifi-

car o conjunto de dados inicial e/ou trocar o algoritmo de data mining (ou ao menos

alterar suas configurações de entrada).

Repare que tanto no modelo CRISP-DM quanto no KDD as fases iniciais são extre-

mamente importantes. Um levantamento mal executado pode implicar em retraba-

lho (visto que fases terão que ser refeitas), retrocesso (pois precisaremos voltar na

fase que ocorreu o problema) e, no pior dos cenários, cancelamento do projeto de

Data Mining, por inviabilidade, seja de prazo ou custo.

4. TÉCNICAS E TAREFAS DE MINERAÇÃO DE DADOS

Antes de mais nada, devemos esclarecer: qual a diferença entre tarefa e técnica

de mineração?

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 15 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Tarefas de mineração consistem na especificação do que estamos querendo

buscar nos dados, que tipo de regularidades ou categoria de padrões temos inte-

resse em encontrar, ou que tipo de padrões poderiam nos surpreender. Estão rela-

cionadas às perguntas feitas na etapa de seleção dos dados, ou seja, nessa fase, a

preocupação é relacionar as perguntas feitas com o que se tem em mãos e, assim,

determinar, pela tarefa a ser realizada, que técnica usar.

Algumas tarefas de mineração serão mais detalhadas a seguir, mas antes de-

vemos esclarecer uma forma pela qual elas podem ser divididas: podem ser de

aprendizado supervisionado ou não supervisionado.

No aprendizado supervisionado existe algum tipo de orientação que subsidia e

norteia o funcionamento da técnica. A partir de exemplos, ele pode seguir e tomar

decisões. A técnica de classificação seria desse tipo. Algoritmos de aprendizado

supervisionado são treinados usando exemplos rotulados, como uma entrada onde

a saída desejada é conhecida. O algoritmo de aprendizagem recebe um conjunto

de entradas junto com as saídas corretas correspondentes, e o algoritmo aprende

comparando a saída real com as saídas corretas para encontrar erros.

Já no aprendizado não supervisionado o algoritmo tira suas próprias conclusões

sem que tenha recebido nenhum tipo de exemplo prévio. O aprendizado não super-

visionado é usado contra dados que não possuem rótulos históricos. O sistema não

sabe a “resposta certa”. O algoritmo deve descobrir o que está sendo mostrado.

O objetivo é explorar os dados e encontrar alguma estrutura neles. O aprendizado

não supervisionado funciona bem em dados transacionais. Por exemplo: ele pode

identificar segmentos de clientes com atributos semelhantes que podem ser trata-

dos de modo semelhante em campanhas de marketing; ou ele pode encontrar os

principais atributos que separam os segmentos de clientes uns dos outros.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 16 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Aprendizado supervisionado: existe algum exemplo ou orientação, um “professor”

que indica como o algoritmo deve proceder.

Aprendizado não supervisionado: não há o “professor”, o algoritmo aprende sozi-

nho as relações, padrões, categorias etc. dos dados que são apresentados e emite

suas próprias conclusões.

Técnicas de mineração consistem na especificação de métodos que nos garan-

tam como descobrir os padrões que nos interessam. O próximo passo agora é en-

tender como saber que técnica escolher, dada uma determinada tarefa. Como já foi

dito, a tarefa depende do objetivo a ser alcançado.

Entre as várias técnicas de Mineração de Dados, podemos destacar: Árvore de

Decisão, Redes Neurais, Indução de Regra, Visualização, Regressão, Análises de

Séries Temporais e Algoritmo Genético. A seguir, serão descritas as três principais:

Árvore de Decisão, Redes Neurais e Algoritmo Genético.

• Árvore de Decisão: utilizam um tipo de algoritmo de aprendizado de máquina

baseado na abordagem de dividir para conquistar. Uma árvore de decisão é

um modelo de função discreta no qual é determinado o valor de uma variável.

Com base nesse valor é executada alguma ação.

• Redes Neurais: foram criadas com base no estudo do cérebro humano. Assim

sendo, sua principal característica é dada pela capacidade de aprender, com

base na exposição de exemplos, sendo que a construção de uma rede neural

se constitui na configuração de sua arquitetura interna, ou seja, uma rede in-

terligada de neurônios; e no treinamento dessa rede com base em exemplos,

até que a rede consiga aprender como resolver o problema, melhorando, des-

sa forma, seu desempenho.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 17 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• Algoritmos Genéticos: simulam o processo de seleção natural proposto por

Charles Darwin, em 1859. De acordo com a teoria de Darwin, pode-se dizer

que os organismos são equivalentes às estruturas de dados, enquanto os cro-

mossomos são equivalentes às cadeias de bits, surgindo mais de um conjunto

de considerações inteiramente diferentes que podem ser usados numa mes-

ma solução do problema. Algoritmos genéticos são mais facilmente aplicados

em problemas com muitas variáveis e restrições.

5. CLASSIFICAÇÃO

Uma das tarefas mais comuns, a Classificação, visa identificar a qual classe um

determinado registro pertence. Nessa tarefa, o modelo analisa o conjunto de regis-

tros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a

fim de “aprender” como classificar um novo registro (aprendizado supervisionado).

Por exemplo, categorizamos cada registro de um conjunto de dados contendo as

informações sobre os colaboradores de uma empresa: Perfil Técnico, Perfil Negocial

e Perfil Gerencial.

O modelo analisa os registros e então é capaz de dizer em qual categoria um

novo colaborador se encaixa. A tarefa de classificação pode ser usada, por exem-

plo, para:

• determinar quando uma transação de cartão de crédito pode ser uma fraude;

• identificar, em uma escola, qual a turma mais indicada para um determinado

aluno;

• diagnosticar onde uma determinada doença pode estar presente.

A tarefa de classificação utiliza, comumente, a técnica conhecida como árvore

de decisão que, basicamente, consiste num gráfico em forma de árvore, contendo

as decisões a serem tomadas e suas possíveis consequências.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 18 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

6. REGRAS DE ASSOCIAÇÃO

Uma associação pode ser analisada da seguinte maneira: dado um conjunto de

registros e uma coleção de itens, cada um deles identificados com alguns números

de itens e de uma coleção, a função de associação retornará afinidades que existem

na coleção de itens desse conjunto de registros. As afinidades podem ser expres-

sas através de regras, por exemplo: 80% dos registros que contém os itens A e B

também contém os C e D. Em um banco de dados podem ser encontradas várias

regras de associação.

Seu estudo tem como objetivo buscar correlação entre atributos, ou seja, en-

contrar itens que impliquem na presença de outros na mesma transação.

A análise associativa é uma metodologia bastante útil para descobrir relaciona-

mentos que se mostrem interessantes em conjuntos de dados. Através dessa aná-

lise podemos descobrir relações úteis que muitas vezes não são visíveis em uma

visão mais superficial. Esses relacionamentos descobertos podem ser representa-

dos por Regras de Associação que mostram itens que são mais frequentes nesse

banco de dados.

As Regras de Associação podem ser fracas e até absurdas. Um exemplo seria o

caso de uma pessoa que vai a uma livraria para comprar um livro e, além do livro,

ele pega um chocolate no caixa. Isso não poderia ser interpretado como uma regra

absoluta para outros casos.

O algoritmo Apriori é um dos algoritmos mais conhecidos para mineração por

regras de associação. Ele afirma que, se um conjunto é frequente, então, todos os

seus subconjuntos também devem ser.

Por isso infere-se que a Análise Associativa pode ser útil para uma empresa que

deseja melhorar as vendas, diagnósticos médicos, estudos científicos para compre-

ender dados de natureza complexa etc.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 19 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

7. ANÁLISE DE AGRUPAMENTOS (CLUSTERIZAÇÃO)

A tarefa de agrupamento visa identificar e aproximar os registros similares. Um

agrupamento (ou cluster) é uma coleção de registros similares entre si, porém,

diferentes dos outros registros nos demais agrupamentos. Essa tarefa difere da

classificação, pois não necessita que os registros sejam previamente categorizados

(aprendizado não supervisionado). Além disso, ela não tem a pretensão de classi-

ficar, estimar ou predizer o valor de uma variável, apenas identifica os grupos de

dados similares. Exemplos:

• segmentação de mercado para um nicho de produtos;

• para auditoria, separando comportamentos suspeitos;

• reduzir para um conjunto de atributos similares registros com centenas de

atributos.

As aplicações das tarefas de agrupamento são as mais variadas possíveis: pes-

quisa de mercado, reconhecimento de padrões, processamento de imagens, análi-

se de dados, segmentação de mercado, taxonomia de plantas e animais, pesquisas

geográficas, classificação de documentos da Web, detecção de comportamentos

atípicos (fraudes), entre outros. Geralmente, a tarefa de agrupamento é combina-

da com outras tarefas, além de serem usadas na fase de preparação dos dados.

8. DETECÇÃO DE ANOMALIAS

É a tarefa de identificar registros que tenham características muito diferentes de

outros registros do mesmo grupo.

Desvios em dados são valores não condizentes com o padrão dos outros que es-

tão na mesma categoria em um banco de dados. A análise de desvios consiste em

identificar esses valores para auxílio na tomada de decisão. A tomada de decisão


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 20 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

mais comum é excluí-lo da base, já que ele é considerado discrepante em relação

aos outros, sendo tratado, assim, como uma exceção. Porém, para algumas aplica-

ções, essas exceções são bastante interessantes. Por exemplo: podemos citar uma

empresa de cartões de crédito que deseja descobrir fraudes no uso dos seus car-

tões por uso dos seus clientes. Valores discrepantes podem dar uma boa dica para

identificar essas infrações. As técnicas utilizadas para isso podem ser, por exemplo,

Árvores de Decisão ou redes neurais.

9. MODELAGEM PREDITIVA

A análise preditiva é o uso de dados, algoritmos estatísticos e técnicas de

machine learning (também conhecido como aprendizado de máquina. Será abor-

dado no próximo tópico) para identificar a probabilidade de resultados futuros com

base em dados históricos.

O objetivo é ir além da estatística descritiva e dos relatórios sobre o que acon-

teceu para fornecer uma melhor avaliação sobre o que vai acontecer no futuro. O

resultado final é a simplificação da tomada de decisão e a geração de novos insights

que levem a melhores ações.

Os modelos preditivos utilizam os resultados conhecidos para desenvolver (ou

treinar) um modelo que possa ser usado para prever valores para dados diferentes

ou novos.

Cada vez mais organizações estão se voltando para a análise preditiva, visando

aumentar seu lucro e sua vantagem competitiva. Por que agora?

• Crescentes volumes e tipos de dados e mais interesse na utilização de dados

para produzir informações valiosas.

• Computadores mais rápidos e mais baratos e softwares mais fáceis de usar.

• Agravamento das condições econômicas e uma necessidade de diferenciação

competitiva.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 21 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• Com o software interativo e fácil de usar se tornando cada vez mais predo-

minante, a análise preditiva não é mais apenas o domínio de matemáticos

e estatísticos. Os analistas de negócios e especialistas na linha de negócios

também estão usando essas tecnologias.

A análise preditiva é utilizada basicamente para realizar cinco tarefas:

• identificar tendências;

• entender os clientes;

• melhorar o desempenho dos negócios;

• promover a tomada de decisão estratégica;

• prever o comportamento.

Algumas das aplicações mais comuns das análises preditivas incluem:

• detecção de fraude: pode ajudar a reduzir a ocorrência de perdas ocorridas

por atividades fraudulentas antes que elas ocorram.

• marketing: pode ajudar uma empresa a entender melhor seus clientes. A

maioria das organizações modernas usa a análise de dados para determinar

as respostas ou compras dos clientes, bem como para promover oportunida-

des de vendas cruzadas.

• operações: previsão de estoques e gerenciar os recursos das fábricas, poden-

do ainda ser utilizada com finalidades ainda mais específicas.

Para adotar a modelagem preditiva, antes de mais nada, é preciso saber qual

o problema que se quer solucionar. Em seguida, deve-se verificar onde poderão

ser obtidos os dados que irão subsidiar a solução desse problema. Deve-se levar

em conta que a preparação dos dados deve ser bem executada, o que leva tempo.

Além disso, uma preparação mal elaborada, acarretará em perda de tempo e retra-

balho. A partir daí, começa a construção do modelo preditivo.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 22 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

A modelagem preditiva exige uma abordagem em equipe. São necessárias pes-

soas que entendam do problema a ser resolvido, pessoas que saibam preparar os

dados, construir e refinar os modelos.

Modelagem preditiva está presente no nosso cotidiano, conforme podemos ver

nos exemplos listados abaixo:

• recomendações: capacidade de serviços de streaming de áudio e vídeo apren-

derem com o que você ouve e assiste e sugerir novas opções de acordo com

o seu gosto.

• detecção de fraude: na execução de uma operação financeira, um modelo de

risco calcula a probabilidade de que, dado o perfil informado, a pessoa seja

fraudadora ou inadimplente. Existem tecnologias que utilizam diversas fontes

de dados, como comportamento de navegação, redes sociais e histórico de

transações.

10. APRENDIZADO DE MÁQUINA

Machine Learning ou Aprendizado de Máquina é um método de análise de dados

que automatiza o desenvolvimento de modelos analíticos. Usando algoritmos que

aprendem interativamente a partir de dados, o aprendizado de máquinas permite

que os computadores encontrem insights ocultos sem serem explicitamente pro-

gramados para procurar algo específico.

O aspecto interativo do aprendizado de máquinas é importante porque, confor-

me os modelos são expostos a novos dados, eles são capazes de se adaptar de for-

ma independente. Eles aprendem com os cálculos anteriores para produzir decisões

e resultados confiáveis e reproduzíveis.

Aqui estão alguns exemplos amplamente divulgados de aplicações do machine

learning com os quais você pode já estar familiarizado:


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 23 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• carros autônomos que dirigem sozinhos. Puro aprendizado de máquina;

• saber o que os clientes dizem sobre uma empresa nas redes sociais (Twitter,

por exemplo).

O interesse no aprendizado de máquina ressurgiu devido aos mesmos fatores

que tornaram a mineração de dados mais popular do que nunca. Coisas como o

crescente volume e variedade de dados disponíveis, o processamento computacio-

nal que está mais barato e mais poderoso, e o armazenamento de dados de forma

acessível.

Tudo isso significa que é possível produzir, de forma rápida e automática, mode-

los que permitam analisar dados maiores e mais complexos e fornecer resultados

mais rápidos e mais precisos – mesmo em uma escala muito grande. O resultado?

Previsões de alto valor que podem levar a melhores decisões e ações inteligentes

em tempo real, sem a intervenção humana.

11. MINERAÇÃO DE TEXTO

Anteriormente, vimos o processo de KDD, que é a busca por conhecimento em

bases de dados. As bases de dados são estruturadas. Mas lembra quando falamos

que a maioria da informação existente é não estruturada? Como podemos proceder

com a busca por conhecimento nesse montante de informação?

É aí que entra a mineração de texto.

A mineração de texto é um processo que utiliza algoritmos capazes de analisar

coleções de documentos texto, com o objetivo de extrair conhecimento. A análise

de dados armazenados em formato não estruturado pode ser considerada uma ati-

vidade mais complexa, se comparada à análise de dados estruturados, justamente

pelo fato dos dados possuírem a característica da não estruturação. Logo, são ne-

cessárias técnicas e ferramentas específicas para tratamento desse tipo de dados.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 24 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Esse conjunto de técnicas e ferramentas também fazem parte da área de recupera-

ção de informações, mais especificamente da área conhecida como Descoberta de

Conhecimento em Textos (Knowledge Discovery from Text - KDT).

A ideia de buscar conhecimento nesse imenso volume de dados é extremamente

interessante, porém, nada prática. Essa situação motivou o surgimento da minera-

ção de texto, uma subárea da mineração de dados interessada no desenvolvimento

de técnicas e processos para a descoberta automática de conhecimento valioso a

partir de coleções de documentos texto.

As etapas da metodologia de mineração de textos seriam:

• coleta: etapa inicial e tem como objetivo formar uma base de dados textual.

Pode se dar de várias maneiras, porém, todas necessitam de grande esforço,

a fim de se conseguir material de qualidade e que sirva de matéria-prima

para a aquisição de conhecimento.

• pré-processamento: etapa executada imediatamente após a Coleta e tem

como objetivo prover alguma formatação e representação da massa textual.

É bastante onerosa, com a aplicação de diversos algoritmos que consomem

boa parte do tempo do processo de extração de conhecimento.

• indexação: é o processo que organiza todos os termos adquiridos a partir de

fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura

de índices garante rapidez e agilidade ao processo, tal como funciona o índice

de um livro.

• mineração: é responsável pelo desenvolvimento de cálculos, inferências e

algoritmos e que tem como objetivo a extração de conhecimento, descoberta

de padrões e comportamentos.

• análise: é a última etapa e deve ser executada por pessoas que, normalmen-

te, estão interessadas no conhecimento extraído e que devem tomar algum

tipo de decisão apoiada no processo de Mineração de Texto.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 25 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Algumas formas de descobrirmos conhecimento através da mineração de texto

seriam:

• Descoberta por Extração de passagens: busca encontrar informações especí-

ficas, auxiliando usuários a encontrar detalhes, sem que ele precise ler todo

texto. Entretanto, ainda assim, é necessário que o usuário leia e interprete as

partes do texto que forem recuperadas para extrair a informação desejada.

• Descoberta por Análise Linguística: informações e regras podem ser desco-

bertas através de análises linguísticas em níveis léxico, morfológico, sintático

e semântico.

• Descoberta por Análise de Conteúdo: semelhante à descoberta por extração

de passagens e à descoberta por análise linguística. Esse tipo de descoberta

investiga linguisticamente os textos e apresenta ao seu usuário informações

sobre o conteúdo dos textos, sendo que há um maior esforço no tratamento

semântico dos textos e visa encontrar o significado do texto pretendido.

• Descoberta por Dumarização: utiliza as técnicas de descoberta por extração

de passagens, descoberta por análise de conteúdo e descoberta por análise

linguística, com ênfase na produção de resumos ou sumários (abstração das

partes mais importantes do conteúdo do texto) a partir de textos.

• Descoberta por Associação entre Passagens: tem por objetivo encontrar au-

tomaticamente conhecimento e informações relacionadas no mesmo texto ou

em textos diferentes.

• Descoberta por Listas de Conceitos-Chave: o objetivo desse tipo de descober-

ta é apresentar uma lista com os conceitos principais de um único texto, uti-

lizando técnicas que permitem extrair os termos mais frequentes dos textos.

• Descoberta de Estruturas de Textos: esta técnica analisa as coesões léxicas

de um texto, tendo como resultado cadeias de termos relacionados que con-

tribuem para a continuidade do seu significado léxico.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 26 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• Descoberta por Recuperação de Informações: suas técnicas podem ajudar

apresentando documentos com visão geral das informações ou assuntos, ou

apresentando partes de documentos com detalhes de informações.

• Descoberta Tradicional após Extração: é o tipo de descoberta mais simples.

Nessa abordagem, os dados são extraídos dos textos e formatados em bases

de dados estruturados com o auxílio de técnicas de Extração de Informações.

Depois, são aplicadas técnicas e algoritmos de Mineração de Dados Estrutu-

rados (KDD), no sentido de descobrir conhecimento útil para seus usuários.

• Descoberta por Clusterização: auxilia o processo de descoberta de conhe-

cimento, facilitando a identificação de padrões (características comuns dos

elementos) nas classes. Essa técnica pode ser utilizada para estruturar e

sintetizar o conhecimento quando este é incompleto ou quando há muitos

atributos a ser considerados.

• Descoberta por Descrição de Classes de Textos: dada uma classe de docu-

mentos textuais e uma categoria associada a esta classe, esse tipo de des-

coberta busca encontrar as características principais dessa classe, as quais

possam identificá-la para os usuários e distingui-las das demais classes.

• Descoberta por Associação entre Textos: procura relacionar descobertas pre-

sentes em vários textos diferentes. As descobertas estão presentes no conte-

údo ou significado dos textos.

• Descoberta por Associação entre Características: esta abordagem procura

relacionar tipos de informação (atributos) presentes em textos, aplicando a

técnica de correlação ou associação tradicional em Mineração de Dados dire-

tamente sobre partes do texto.

• Uma das diferenças é que os valores para os atributos são partes do texto e

não necessariamente dados extraídos por técnicas de extração de informações.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 27 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• Descoberta por Hipertextos: aqui a descoberta é exploratória e experimental,

feita através de mecanismos de navegação. Com tais ferramentas, é possível

expandir e comparar o conhecimento através dos links que relacionam as

informações, funcionando de modo análogo à mente humana (memória as-

sociativa). Tal abordagem é útil quando os problemas de falta de informação

são mal definidos e quando se quer explorar novos domínios.

• Descoberta por Manipulação de Formalismos: uma vez que é possível repre-

sentar o conteúdo dos textos em formalismos, mecanismos de manipulação

simbólica podem inferir novos conhecimentos, simplesmente por transforma-

ções na forma.

• Descoberta por Combinação de Representações: um caso especial da desco-

berta por associação entre textos é a descoberta por combinação de repre-

sentações.

• A diferença é que os textos, antes de serem combinados, passam por um

processo de representação interna.

• Então, na verdade, não são os textos que são combinados, mas, sim, seus

conteúdos, conforme o formalismo e as regras internas.

• A combinação de representações diferentes permite que pontos de vista di-

ferentes possam ser usados para criar novas representações e, consequente-

mente, novo conhecimento.

• Descoberta por Comparação de Modelos Mentais: procura representar docu-

mentos textuais e o estado de conhecimento do usuário (modelo mental das

informações) em um formalismo padrão para, após, compará-los.

• Se for possível verificar o que há nos documentos que falta no estado mental

do usuário, então um conhecimento novo foi descoberto.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 28 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• Descoberta por Análise de Sequências Temporais: esta técnica permite des-

cobrir dependências entre conceitos que aparecem em textos dentro de uma

mesma janela de tempo.

• O objetivo é saber se um conceito condiciona a aparição de outro no futuro.

Os textos a serem analisados nesse processo devem, obrigatoriamente, se-

guir uma ordem cronológica, formando uma sequência temporal.

Essas sequências podem ser independentes, não havendo relação explícita

entre textos de uma sequência e de outra.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 29 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

RESUMO

• Mineração de Dados (Data Mining): tecnologias e técnicas que permitem ex-

plorar um grande volume de dados, utilizando algoritmos sofisticados e rea-

lizando análises complexas. Os algoritmos segmentam os dados e avaliam a

probabilidade de ocorrência de determinados eventos.

• CRISP-DM: é um modelo padrão de mineração de dados que descreve as

abordagens comuns usadas para resolver problemas. É constituído de seis

fases, é cíclico e é possível avançar e voltar entre as fases.

• As seis fases do CRISP-DM:

–– entendimento do negócio;

–– entendimento dos dados;

–– preparação dos dados;

–– modelagem;

–– avaliação;

–– implantação;

• KDD: busca de conhecimento em bases de dados.

• Etapas KDD:

–– Seleção: identificação de quais dados serão trabalhados na base;

–– Pré-processamento e Limpeza: verificação de inconsistências nos dados

que serão trabalhados;

–– Transformação: fase de organização e formatação dos dados para que os

algoritmos de mineração funcionem adequadamente;

–– Mineração de Dados: onde é feita a busca por informações efetivamente

úteis, aplicando-se algoritmos para extrair o conhecimento da base de dados;

–– Interpretação e avaliação: é onde o conhecimento adquirido é avaliado,

verificando-se se o objetivo foi atingido.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 30 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

• Classificação: procura identificar a qual classe um registro pertence, com

base em exemplos ou indicações (aprendizado supervisionado).

• Regras de associação: buscam por similaridades, afinidades existentes em

itens de um conjunto de registros.

• Análise de agrupamentos (clusterização): procura identificar e agrupar regis-

tros similares. Não precisa de classificação prévia (aprendizado não supervi-

sionado).

• Detecção de anomalias: identificar registros que tenham características muito

diferentes de outros registros do mesmo grupo.

• Modelagem preditiva: identificar a probabilidade de resultados futuros com

base em dados históricos.

• Aprendizado de máquina: método de análise de dados usando algoritmos que

aprendem a partir dos dados que recebem, sem serem programados para

procurar algo específico.

• Mineração de texto: busca de conhecimento em dados não estruturados. Di-

fere do KDD, que busca em bases de dados.

• Etapas mineração de texto:

–– Coleta: etapa inicial e tem como objetivo formar uma base de dados textual;

–– Pré-processamento: visa prover alguma formatação e representação da

massa textual;

–– Indexação: organização dos termos adquiridos das fontes de dados, facili-

tando o seu acesso e recuperação. Associe ao índice de um livro. Você vai

no índice e de lá consegue saber em que página está o que procura, sem

precisar ler o livro inteiro;

–– Mineração: a mesma que tratamos no decorrer de todo o capítulo;

–– Análise: validação do conhecimento obtido na mineração de texto;

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 31 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

QUESTÕES DE CONCURSO

1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que:

a) Refere-se à implementação de banco de dados paralelos.

b) Consiste em armazenar o banco de dados em diversos computadores.

c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes-

mo intervalo de tempo.

d) Permite-se distinguir várias entidades de um conjunto.

e) Refere-se à busca de informações relevantes a partir de um grande volume de

dados.

2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar:

a) É o processo de descoberta de novas correlações, padrões e tendências entre

as informações de uma empresa, por meio da análise de grandes quantidades de

dados armazenados em bancos de dados usando técnicas de reconhecimento de

padrões, estatísticas e matemáticas.

b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-

seguem determinar de forma completa e eficiente o valor dos padrões encontrados.

c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam

sistematicamente “simplificados”, de forma a desconsiderar aquilo que é genérico

e privilegiar aquilo que é específico.

d) É um grande banco de dados voltado para dar suporte necessário nas decisões

de usuários finais, geralmente gerentes e analistas de negócios.

e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a

partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade,

são consistentes e habilitam descobertas abrangentes e precisas.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 32 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

3. (FCC/TRT 11/2017) Sistemas do tipo I e do tipo II realizam tarefas diferentes,

porém complementares. O tipo I é adequado para atividades como indexação de

dados, alocação de custos, análises de séries temporais e análises “what-if”. Po-

rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências

indutivas, processo que permite chegar a conclusões genéricas a partir de exem-

plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas

do tipo I fornecem uma visão multidimensional de dados, incluindo suporte a hie-

rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-

ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-

contrar padrões e relações entre as informações disponíveis em bancos de dados.

Os sistemas do tipo II podem encontrar informações ocultas nos dados disponíveis,

mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a

organização.

Os sistemas do tipo I e II são, correta e respectivamente,

a) Data Warehouse e Data Mining.

b) Banco de Dados Multidimensional e Banco de Dados Relacional.

c) Data Mining e Data Warehouse.

d) OLAP e Data Mining.

e) OLAP e Data Warehouse.

4. (CESPE/ANATEL/2014) A respeito de banco de dados, julgue os itens que se

seguem.

No processo de Data Mining (mineração de dados), é indispensável o uso de téc-

nica conhecida como Data Warehousing, uma vez que a mineração de dados deve

ocorrer necessariamente em estruturas não normalizadas (FN0).

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 33 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

5. (CESPE/TJDFT/2015) Julgue o item a seguir, a respeito de Data Warehouse e de

Data Mining.

Em um processo de mineração, durante a etapa de preparação dos dados, são ana-

lisados os requisitos de negócio para consolidar os dados.

6. (CESPE/TCE-SC/2016) Julgue os itens, acerca de mineração de dados.

Para a realização de prognósticos por meio de técnicas de mineração de dados, par-

te-se de uma série de valores existentes obtidos de dados históricos bem como de

suposições controladas a respeito das condições futuras, para prever outros valores

e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.

7. (CESPE/TCE/2016) CRISP-DM é uma metodologia proprietária que identifica as

fases Business Understanding e Data Understanding na implantação de um projeto

de Data Mining.

8. (FUNDATEC/SEFAZ-RS/2014) Há uma tecnologia que é empregada sobre gran-

des volumes de dados para descobrir novas informações em função de regras e

padrões existentes nesses dados. Normalmente, tais informações não são obtidas

simplesmente consultando os dados armazenados em bancos de dados. Por exem-

plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-

me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas

de fraldas descartáveis, nas sextas-feiras, estava relacionada às vendas de cerveja,

sendo que, geralmente, os compradores eram homens. Como oportunidade de ne-

gócio, a rede varejista colocou os produtos lado a lado, resultando em um aumento

expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa

tecnologia usa diversas técnicas, tais como associação, classificação e predição,

dentre outras. Nesse caso, essa tecnologia é chamada de:


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 34 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

a) Data Mart

b) Data Mining

c) Data Warehouse

d) Business Intelligence

e) OLAP

9. (CESPE/TCE/2016) Julgue os itens a seguir, em relação a data mining.

No contexto de data mining, o processo de descoberta de conhecimento em base

de dados consiste na extração não trivial de conhecimento previamente desconhe-

cido e potencialmente útil.

10. (CESPE/TRT 8/2016) A respeito de sistemas de suporte a decisão, assinale a

opção correta.

As ferramentas de ETL têm como objetivo efetuar extração, transformação e carga

de dados vindos de uma base transacional para um data warehouse (DW). No pro-

cesso de extração, que é o mais demorado dos três, ocorre a limpeza dos dados, a

fim de garantir a qualidade do que será posteriormente carregado na base do DW.

Os operadores de navegação drill-down (navegam entre as hierarquias diminuindo

o nível do detalhe, por exemplo: município > estado) e roll-up (navegam entre as

hierarquias aumentando o nível do detalhe, por exemplo: estado > município) são

considerados básicos e estão implementados em todas as ferramentas de OLAP.

As bases de dados criadas para atender ao data warehouse (DW) são do modelo

relacional (E/R), em que as tabelas representam dados e relacionamentos e são

altamente normalizadas.

Nos processos de análise de inferência, representados pelo data mining, ocorrem

buscas de informação com base em algoritmos que objetivam o reconhecimento de

padrões escondidos nos dados e não revelados por outras abordagens.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 35 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-

tes operacionais na fase de extração, trabalhados na fase de transformação (ou

staging) e carregados no DW na fase de carga. Quando necessário, um banco de

dados temporário, preparatório para a carga no DW, poderá ser criado na fase de

extração, com características relacionais.

11. (CESPE/FUNPRESP/2016) Julgue os itens subsecutivos, referentes às tecnolo-

gias de bancos de dados.

Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-

ficação para atribuir informação de tipo.

12. (CESPE/PREVIC/2011) Julgue os itens a seguir, relativos aos sistemas de su-

porte a decisão.

Um banco de dados pode conter objetos de dados que não sigam o padrão dos

dados armazenados. Nos métodos de mineração de dados, esses objetos de dados

são tratados como exceção, para que não induzirem a erros na mineração.

13. (CESPE/MEC/2015) Julgue os itens seguintes, referentes a data mining.

Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos

de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mu-

tação, para solucionar e agrupar problemas.

14. (CESPE/TJ-CE/2014) Assinale a opção correta acerca de Data Mining.

a) A informação acerca dos resultados obtidos no processo de mineração é apre-

sentada apenas de forma gráfica.

b) A classificação, uma das principais tecnologias da mineração de dados, caracte-

riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada

a um itemset.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 36 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

c) É possível realizar mineração de dados em documentos textuais como, por

exemplo, uma página da Internet.

d) A grande desvantagem de um Data Mining consiste no fato de que a identifi-

cação de um padrão, para a geração do conhecimento, só é possível por meio da

análise em pequenas quantidades de dados.

e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é

permitido um único tipo de padrão.

15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining

e ETL.

O uso de agrupamento (clustering) em DataMining exige que os registros sejam

previamente categorizados, tendo por finalidade aproximar registros similares para

predizer valores de variáveis.

16. (CESPE/TC-DF/2014) Julgue os itens subsecutivos, com relação a Data Mining,

desempenho de sistemas de bancos de dados e controle de concorrência.

Com o uso da classificação como técnica de Data Mining, busca-se a identificação

de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-

da em conjunto com outras técnicas de mineração de dados.

17. (CESPE/MC/2013) Com relação a soluções de suporte à decisão, julgue os itens

subsecutivos.

Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-

mento em base de dados. Eles são provenientes, automaticamente, do banco de

dados e não há interação manual na descoberta de novos tipos de padrões.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 37 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

18. (CESPE/MPU/2013) Julgue os próximos itens, acerca de sistemas de suporte à

decisão.

Em se tratando de mineração de dados, a técnica de agrupamento (clustering)

permite a descoberta de dados por faixa de valores, por meio do exame de alguns

atributos das entidades envolvidas.

19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e

ETL.

O processo de transformação de dados pode exigir que dados logicamente relacio-

nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-

tros distintos ou até mesmo estejam em bancos de dados operacionais distintos.

20. (CESGRANRIO/EPE/2012) As técnicas de mineração de dados podem ser cate-

gorizadas em supervisionadas e não supervisionadas.

As técnicas de árvores de decisão, agrupamento e regras de associação são cate-

gorizadas, respectivamente, como:

a) não supervisionada, não supervisionada, não supervisionada

b) não supervisionada, supervisionada e não supervisionada

c) supervisionada, não supervisionada e não supervisionada

d) supervisionada, não supervisionada e supervisionada

e) supervisionada, supervisionada e supervisionada

21. (CESPE/TJ-AC/2012) No que diz respeito a sistemas de suporte a decisão, jul-

gue os itens subsequentes.

O data mining possibilita analisar dados para obtenção de resultados estatísticos

que poderão gerar novas oportunidades ao negócio.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 38 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

22. (CESPE/TJ-ES/2011) Julgue os itens a seguir, a respeito de administração de

dados e de administração de banco de dados.

Mineração de dados, em seu conceito pleno, consiste na realização, de forma ma-

nual, de sucessivas consultas ao banco de dados com o objetivo de descobrir pa-

drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.

23. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma

ou mais técnica de aprendizagem em computador para, automaticamente, analisar

e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens

seguintes, que versam sobre mineração de dados e KDD.

O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-

visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida

como uma etapa desse processo.

24. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma

ou mais técnica de aprendizagem em computador para, automaticamente, analisar

e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens

seguintes, que versam sobre mineração de dados e KDD.

A metodologia para a realização de tarefas de mineração de dados, prescrita pelo

modelo de referência proposto pelo Consórcio CRISP/DM, consiste nas seguintes

fases: entendimento do negócio (business understanding), entendimento dos da-

dos (data understanding), pré-processamento dos dados (data preparation), mo-

delagem (modeling), avaliação dos modelos (evaluation) e colocação do modelo

selecionado em uso (deployment).

25. (CESPE/DATAPREV/2006) Julgue os seguintes itens, acerca de técnicas de mi-

neração de dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 39 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Outliers são instâncias de dados (observações) atípicas porque se mantêm à dis-

tância anormal das outras instâncias em uma amostra aleatória representativa da

população de onde as instâncias foram extraídas.

26. (CESPE/ANATEL/2009) Data mining (mineração de dados) consiste na análise

de grandes quantidades de dados a fim de encontrar padrões e regras que pos-

sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de

explorar grandes quantidades de dados à procura de padrões consistentes, como

regras de associação ou sequências temporais, para detectar relacionamentos sis-

temáticos entre variáveis, detectando assim novos subconjuntos de dados. Utiliza

várias técnicas da estatística, recuperação de informação, inteligência artificial e

reconhecimento de padrões.

27. (CESPE/IPEA/2008) Com relação a BI (business inteligence), indicadores da

produção, administração da produção, monitoração do ambiente operacional, jul-

gue os próximos itens.

O data mining é um processo utilizado para a extração de dados de grandes repo-

sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados

de um data warehouse.

28. (FEPESE/UFFS/2012) Identifique, dentre os itens abaixo, os que podem ser

utilizadas por processos e sistemas de data mining:

1. Criptografia assíncrona

2. Inteligência artificial

3. Machine learning

4. Estatística

5. Algoritmos genéticos
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 40 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Assinale a alternativa que indica todos os itens corretos.

a) São corretos apenas os itens 2, 3 e 4.

b) São corretos apenas os itens 2, 3 e 5.

c) São corretos apenas os itens 1, 2, 3 e 5.

d) São corretos apenas os itens 2, 3, 4 e 5.

e) São corretos os itens 1, 2, 3, 4 e 5.

29. (CESPE/TCU/2007) Nos sistemas de suporte a decisão (SSD), os dados são

coletados em data warehouses e a análise de dados pode ser realizada por meio

de processamento analítico online (OLAP) e data mining. Julgue os itens seguintes,

sobre SSD, OLAP e data mining.

No data mining, o agrupamento e a classificação funcionam de maneira similar: o

agrupamento reconhece os padrões que descrevem o grupo ao qual um item per-

tence, examinando os itens existentes; a classificação é aplicada quando nenhum

grupo foi ainda definido.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 41 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

GABARITO

1. e 26. C

2. a 27. E

3. d 28. d

4. E 29. e

5. E

6. C

7. E

8. b

9. C

10. d

11. C

12. E

13. C

14. c

15. E

16. C

17. E

18. C

19. C

20. c

21. C

22. E

23. C

24. C

25. C
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 42 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

GABARITO COMENTADO

1. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que:

a) Refere-se à implementação de banco de dados paralelos.

b) Consiste em armazenar o banco de dados em diversos computadores.

c) Relaciona-se à capacidade de processar grande volume de tarefas em um mes-

mo intervalo de tempo.

d) Permite-se distinguir várias entidades de um conjunto.

e) Refere-se à busca de informações relevantes a partir de um grande volume de

dados.

Letra e.

Uma simplificação do conceito de mineração de dados, mas, ainda assim, não deixa

de estar correta.

2. (FCC/TRF 4/2010) Sobre data mining, é correto afirmar:

a) É o processo de descoberta de novas correlações, padrões e tendências entre

as informações de uma empresa, por meio da análise de grandes quantidades de

dados armazenados em bancos de dados usando técnicas de reconhecimento de

padrões, estatísticas e matemáticas.

b) Não requer interação com analistas humanos, pois os algoritmos utilizados con-

seguem determinar de forma completa e eficiente o valor dos padrões encontrados.

c) Na mineração de dados, encontrar padrões requer que os dados brutos sejam

sistematicamente “simplificados”, de forma a desconsiderar aquilo que é genérico

e privilegiar aquilo que é específico.

d) É um grande banco de dados voltado para dar suporte necessário nas decisões

de usuários finais, geralmente gerentes e analistas de negócios.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 43 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

e) O processo de descobrimento realizado pelo data mining só pode ser utilizado a

partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade,

são consistentes e habilitam descobertas abrangentes e precisas.

Letra a.

Repare sempre nas palavras rotineiramente associadas ao conceito de mineração

de dados: reconhecimento de padrões, tendências, grande volume de dados. Assim

sendo, concluímos que a resposta certa é a letra “a”.

3. (FCC/TRT 11/2017) Sistemas do tipo I e do tipo II realizam tarefas diferentes,

porém complementares. O tipo I é adequado para atividades como indexação de

dados, alocação de custos, análises de séries temporais e análises “what-if”. Po-

rém, a maioria dos sistemas do tipo I não tem a capacidade de realizar inferências

indutivas, processo que permite chegar a conclusões genéricas a partir de exem-

plos específicos, que são uma característica nativa de sistemas do tipo II. Sistemas

do tipo I fornecem uma visão multidimensional de dados, incluindo suporte a hie-

rarquias. Essa visão de dados é uma forma natural de analisar negócios e organiza-

ções. Sistemas do tipo II, por outro lado, podem ajudar a detectar tendências, en-

contrar padrões e relações entre as informações disponíveis em bancos de dados.

Os sistemas do tipo II podem encontrar informações ocultas nos dados disponíveis,

mas é o gestor quem deve atribuir o valor de cada uma dessas descobertas para a

organização.

Os sistemas do tipo I e II são, correta e respectivamente,

a) Data Warehouse e Data Mining.

b) Banco de Dados Multidimensional e Banco de Dados Relacional.

c) Data Mining e Data Warehouse.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 44 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

d) OLAP e Data Mining.

e) OLAP e Data Warehouse.

Letra d.

As características citadas dos sistemas tipo I remetem ao conceito de OLAP

(Online Analytical Processing); enquanto as dos sistemas tipo II, referem-se ao

Data Mining.

4. (CESPE/ANATEL/2014) A respeito de banco de dados, julgue os itens que se

seguem.

No processo de Data Mining (mineração de dados), é indispensável o uso de téc-

nica conhecida como Data Warehousing, uma vez que a mineração de dados deve

ocorrer necessariamente em estruturas não normalizadas (FN0).

Errado.

Data Mining não precisa obrigatoriamente de um Data Warehouse para funcionar.

5. (CESPE/TJDFT/2015) Julgue o item a seguir, a respeito de Data Warehouse e de

Data Mining.

Em um processo de mineração, durante a etapa de preparação dos dados, são ana-

lisados os requisitos de negócio para consolidar os dados.

Errado.

Baseando-se no modelo CRISP-DM, o entendimento do negócio é a primeira etapa

do processo, e não está embutido na etapa de preparação de dados. Veja no resu-

mo a sequência das etapas do CRISP-DM.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 45 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

6. (CESPE/TCE-SC/2016) Julgue os itens, acerca de mineração de dados.

Para a realização de prognósticos por meio de técnicas de mineração de dados, par-

te-se de uma série de valores existentes obtidos de dados históricos bem como de

suposições controladas a respeito das condições futuras, para prever outros valores

e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.

Certo.

Basta lembrar da definição de mineração de dados para verificarmos que a afirma-

ção está correta.

7. (CESPE/TCE/2016) CRISP-DM é uma metodologia proprietária que identifica as

fases Business Understanding e Data Understanding na implantação de um projeto

de Data Mining.

Errado.

O padrão CRISP-DM foi criado por um consórcio que queria desenvolver um modelo

que funcionasse em qualquer tipo de negócio, sendo gratuito e não proprietário. Ou

seja, item errado.

8. (FUNDATEC/SEFAZ-RS/2014) Há uma tecnologia que é empregada sobre gran-

des volumes de dados para descobrir novas informações em função de regras e

padrões existentes nesses dados. Normalmente, tais informações não são obtidas

simplesmente consultando os dados armazenados em bancos de dados. Por exem-

plo: uma das maiores redes de varejo dos Estados Unidos descobriu, em seu enor-

me banco de dados, por meio do uso dessa tecnologia, que o aumento das vendas
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 46 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

de fraldas descartáveis, nas sextas-feiras, estava relacionada às vendas de cerveja,

sendo que, geralmente, os compradores eram homens. Como oportunidade de ne-

gócio, a rede varejista colocou os produtos lado a lado, resultando em um aumento

expressivo nas vendas de ambos os produtos. Para obter tais descobertas, essa

tecnologia usa diversas técnicas, tais como associação, classificação e predição,

dentre outras. Nesse caso, essa tecnologia é chamada de:

a) Data Mart

b) Data Mining

c) Data Warehouse

d) Business Intelligence

e) OLAP

Letra b.

Novamente, conceito de mineração de dados e ainda mencionou algumas técnicas

relacionadas, como associação e classificação. Letra “b” correta.

9. (CESPE/TCE/2016) Julgue os itens a seguir, em relação a data mining.

No contexto de data mining, o processo de descoberta de conhecimento em base

de dados consiste na extração não trivial de conhecimento previamente desconhe-

cido e potencialmente útil.

Certo.

Essa definição, inclusive, foi citada em nossas explicações no decorrer do capítulo,

quando tratamos sobre KDD.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 47 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

10. (CESPE/TRT 8/2016) A respeito de sistemas de suporte a decisão, assinale a

opção correta.

a) As ferramentas de ETL têm como objetivo efetuar extração, transformação e

carga de dados vindos de uma base transacional para um data warehouse (DW). No

processo de extração, que é o mais demorado dos três, ocorre a limpeza dos dados,

a fim de garantir a qualidade do que será posteriormente carregado na base do DW.

b) Os operadores de navegação drill-down (navegam entre as hierarquias dimi-

nuindo o nível do detalhe, por exemplo: município > estado) e roll-up (navegam

entre as hierarquias aumentando o nível do detalhe, por exemplo: estado > muni-

cípio) são considerados básicos e estão implementados em todas as ferramentas

de OLAP.

c) As bases de dados criadas para atender ao data warehouse (DW) são do modelo

relacional (E/R), em que as tabelas representam dados e relacionamentos e são

altamente normalizadas.

d) Nos processos de análise de inferência, representados pelo data mining, ocor-

rem buscas de informação com base em algoritmos que objetivam o reconhecimen-

to de padrões escondidos nos dados e não revelados por outras abordagens.

e) Em uma arquitetura de data warehouse (DW), os dados são coletados das fon-

tes operacionais na fase de extração, trabalhados na fase de transformação (ou

staging) e carregados no DW na fase de carga. Quando necessário, um banco de

dados temporário, preparatório para a carga no DW, poderá ser criado na fase de

extração, com características relacionais.

Letra d.

Utilização de algoritmos que visam reconhecimento de padrões remetem à defini-

ção de mineração de dados.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 48 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

11. (CESPE/FUNPRESP/2016) Julgue os itens subsecutivos, referentes às tecnolo-

gias de bancos de dados.

Em Data Mining, as árvores de decisão podem ser usadas com sistemas de classi-

ficação para atribuir informação de tipo.

Certo.

Árvore de decisão é uma das técnicas que podem ser usadas por tarefas de classi-

ficação.

12. (CESPE/PREVIC/2011) Julgue os itens a seguir, relativos aos sistemas de su-

porte a decisão.

Um banco de dados pode conter objetos de dados que não sigam o padrão dos

dados armazenados. Nos métodos de mineração de dados, esses objetos de dados

são tratados como exceção, para que não induzirem a erros na mineração.

Errado.

Para tais casos existe a etapa de preparação dos dados do modelo CRISP-DM. Os

dados são efetivamente tratados e não categorizados com exceção.

13. (CESPE/MEC/2015) Julgue os itens seguintes, referentes a data mining.

Algoritmo genético é uma das ferramentas do data mining que utiliza mecanismos

de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mu-

tação, para solucionar e agrupar problemas.

Certo.

Basta lembrar que o algoritmo genético é baseado na teoria da seleção natural de

Charles Darwin, ou seja, evolução e seleção natural.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 49 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

14. (CESPE/TJ-CE/2014) Assinale a opção correta acerca de Data Mining.

a) A informação acerca dos resultados obtidos no processo de mineração é apre-

sentada apenas de forma gráfica.

b) A classificação, uma das principais tecnologias da mineração de dados, caracte-

riza-se por possuir um conjunto de transações, sendo cada uma delas relacionada

a um itemset.

c) É possível realizar mineração de dados em documentos textuais como, por

exemplo, uma página da Internet.

d) A grande desvantagem de um Data Mining consiste no fato de que a identifi-

cação de um padrão, para a geração do conhecimento, só é possível por meio da

análise em pequenas quantidades de dados.

e) Durante a fase de reconhecimento de padrões, para cada banco de dados, é

permitido um único tipo de padrão.

Letra c.

Textos são passíveis de mineração, vide o tópico que tratamos de mineração de

texto.

15. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL.

O uso de agrupamento (clustering) em DataMining exige que os registros sejam

previamente categorizados, tendo por finalidade aproximar registros similares para

predizer valores de variáveis.

Errado.

Clustering é aprendizado não supervisionado. Não há necessidade de categorização

prévia, quem precisa disso é Classificação.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 50 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

16. (CESPE/TC-DF/2014) Julgue os itens subsecutivos, com relação a Data Mining,

desempenho de sistemas de bancos de dados e controle de concorrência.

Com o uso da classificação como técnica de Data Mining, busca-se a identificação

de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usa-

da em conjunto com outras técnicas de mineração de dados.

Certo.

Os atributos mencionados subsidiam o aprendizado supervisionado, permitindo a

identificação da classe de um registro.

17. (CESPE/MC/2013) Com relação a soluções de suporte à decisão, julgue os itens

subsecutivos.

Data mining utiliza diversos tipos de padrões e técnicas para descobrir o conheci-

mento em base de dados. Eles são provenientes, automaticamente, do banco de

dados e não há interação manual na descoberta de novos tipos de padrões.

Errado.

Há várias tarefas manuais que precisam ser executadas na mineração de dados,

desde a seleção das informações até a validação do conhecimento minerado.

18. (CESPE/MPU/2013) Julgue os próximos itens, acerca de sistemas de suporte à

decisão.

Em se tratando de mineração de dados, a técnica de agrupamento (clustering)

permite a descoberta de dados por faixa de valores, por meio do exame de alguns

atributos das entidades envolvidas.

Certo.

Não há erro na afirmação acima.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 51 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

19. (CESPE/TJ-SE/2014) Julgue os próximos itens, com relação a Data Mining e ETL.

O processo de transformação de dados pode exigir que dados logicamente relacio-

nados, mas fisicamente separados, sejam recompostos, ainda que envolvam regis-

tros distintos ou até mesmo estejam em bancos de dados operacionais distintos.

Certo.

A transformação de dados pode correlacionar esses dados fisicamente separados,

de forma a dar sentido a eles, criando dados derivados, por exemplo.

20. (CESGRANRIO/EPE/2012) As técnicas de mineração de dados podem ser cate-

gorizadas em supervisionadas e não supervisionadas.

As técnicas de árvores de decisão, agrupamento e regras de associação são cate-

gorizadas, respectivamente, como:

a) não supervisionada, não supervisionada, não supervisionada

b) não supervisionada, supervisionada e não supervisionada

c) supervisionada, não supervisionada e não supervisionada

d) supervisionada, não supervisionada e supervisionada

e) supervisionada, supervisionada e supervisionada

Letra c.

Devemos, nesse caso, nos lembrar das definições de aprendizado supervisionado

(com base em exemplos ou indicações) e não supervisionado (não precisa de clas-

sificação prévia). Árvores de decisão (classificação) são consideradas de apren-

dizado supervisionado. Agrupamento (clustering) e regras de associação são de

aprendizado não supervisionado.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 52 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

21. (CESPE/TJ-AC/2012) No que diz respeito a sistemas de suporte a decisão, jul-

gue os itens subsequentes.

O data mining possibilita analisar dados para obtenção de resultados estatísticos

que poderão gerar novas oportunidades ao negócio.

Certo.

Os resultados da mineração permitem subsidiar as decisões gerenciais, ainda mais

se os modelos corretos forem gerados, criando previsões de ocorrências com base

no histórico.

22. (CESPE/TJ-ES/2011) Julgue os itens a seguir, a respeito de administração de

dados e de administração de banco de dados.

Mineração de dados, em seu conceito pleno, consiste na realização, de forma ma-

nual, de sucessivas consultas ao banco de dados com o objetivo de descobrir pa-

drões úteis, mas não necessariamente novos, para auxílio à tomada de decisão.

Errado.

Uma das ideias da mineração de dados é justamente a captação de insights que

não puderam ser captados anteriormente por outros tipos de análise ou por veri-

ficações manuais. Além do mais, as consultas realizadas pelos algoritmos não são

realizadas de forma manual.

23. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma

ou mais técnica de aprendizagem em computador para, automaticamente, analisar

e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens

seguintes, que versam sobre mineração de dados e KDD.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 53 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

O processo de KDD é iterativo e cíclico, podendo a saída de uma etapa requerer re-

visão em etapa anterior. Nesse contexto, a mineração de dados pode ser entendida

como uma etapa desse processo.

Certo.

A mineração de dados é um componente do processo de descoberta de conheci-

mento em base de dados.

24. (CESPE/DATAPREV/2006) Mineração de dados é o processo de empregar uma

ou mais técnica de aprendizagem em computador para, automaticamente, analisar

e extrair conhecimentos de dados contidos em uma base de dados. Julgue os itens

seguintes, que versam sobre mineração de dados e KDD.

A metodologia para a realização de tarefas de mineração de dados, prescrita pelo

modelo de referência proposto pelo Consórcio CRISP/DM, consiste nas seguintes

fases: entendimento do negócio (business understanding), entendimento dos da-

dos (data understanding), pré-processamento dos dados (data preparation), mo-

delagem (modeling), avaliação dos modelos (evaluation) e colocação do modelo

selecionado em uso (deployment).

Certo.

São as seis etapas do modelo CRISP-DM. A última etapa listada também pode ser

chamada de implantação.

25. (CESPE/DATAPREV/2006) Julgue os seguintes itens, acerca de técnicas de mi-

neração de dados.
O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 54 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Outliers são instâncias de dados (observações) atípicas porque se mantêm à dis-

tância anormal das outras instâncias em uma amostra aleatória representativa da

população de onde as instâncias foram extraídas.

Certo.

Simplificando o exposto, são dados discrepantes, que podem representar uma ten-

dência, um dado verdadeiro, um erro, ou até uma fraude. Então, deve-se ter muito

cuidado antes de proceder qualquer tipo de ação com um outlier.

26. (CESPE/ANATEL/2009) Data mining (mineração de dados) consiste na análise

de grandes quantidades de dados a fim de encontrar padrões e regras que pos-

sam, por exemplo, ser usados para orientar a tomada de decisões. É o processo de

explorar grandes quantidades de dados à procura de padrões consistentes, como

regras de associação ou sequências temporais, para detectar relacionamentos sis-

temáticos entre variáveis, detectando assim novos subconjuntos de dados. Utiliza

várias técnicas da estatística, recuperação de informação, inteligência artificial e

reconhecimento de padrões.

Certo.

Questão que aborda, novamente, o conceito de mineração de dados.

27. (CESPE/IPEA/2008) Com relação a BI (business inteligence), indicadores da

produção, administração da produção, monitoração do ambiente operacional, jul-

gue os próximos itens.

O data mining é um processo utilizado para a extração de dados de grandes repo-

sitórios para tomada de decisão, mas sua limitação é não conseguir analisar dados

de um data warehouse.

O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 55 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

Errado.

Não há impeditivo algum de um processo de data mining analisar dados de um data

warehouse.

28. (FEPESE/UFFS/2012) Identifique, dentre os itens abaixo, os que podem ser

utilizadas por processos e sistemas de data mining:

1. Criptografia assíncrona

2. Inteligência artificial

3. Machine learning

4. Estatística

5. Algoritmos genéticos

Assinale a alternativa que indica todos os itens corretos.

a) São corretos apenas os itens 2, 3 e 4.

b) São corretos apenas os itens 2, 3 e 5.

c) São corretos apenas os itens 1, 2, 3 e 5.

d) São corretos apenas os itens 2, 3, 4 e 5.

e) São corretos os itens 1, 2, 3, 4 e 5.

Letra d.

Repare que todos os termos listados foram abordados por nós em algum momento

durante este capítulo, com exceção do item criptografia assíncrona. Logo, a alter-

nativa correta é a letra “d”.

29. (CESPE/TCU/2007) Nos sistemas de suporte a decisão (SSD), os dados são

coletados em data warehouses e a análise de dados pode ser realizada por meio

de processamento analítico online (OLAP) e data mining. Julgue os itens seguintes,

sobre SSD, OLAP e data mining.


O conteúdo desta aula em pdf é licenciado para WESLEY HENRIQUE DE ALBUQUERQUE - 02409124119, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
www.grancursosonline.com.br 56 de 57
ANÁLISE DE INFORMAÇÕES
Mineração de Dados
Profs. Rafael Faria e Celso Ângelo

No data mining, o agrupamento e a classificação funcionam de maneira similar: o

agrupamento reconhece os padrões que descrevem o grupo ao qual um item per-

tence, examinando os itens existentes; a classificação é aplicada quando nenhum

grupo foi ainda definido.

Errado.

Agrupamento e classificação são coisas distintas. Agrupamento (clusterização) é

aprendizado não supervisionado; classificação é aprendizado supervisionado.

www.grancursosonline.com.br 57 de 57

Você também pode gostar