Del - Curso 40546 Aula 05 v1

Livro Eletrônico
Aula 05
Análise de Informações p/ TCU 2018 (Todos os Cargos) Com videoaulas
Professor: Thiago Rodrigues Cavalcanti

Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti Aula 05
AULA 05: Noções de mineração de dados:

conceituação e características. Modelo de
referência CRISP-DM. Técnicas para pré-
processamento de dados. Técnicas e tarefas de
mineração de dados. Classificação. Regras de
associação. Análise de agrupamentos
(clusterização). Detecção de anomalias.
Modelagem preditiva. Aprendizado de máquina.
Mineração de texto. 6 Visualização e análise
exploratória de dados
Sumário
1. Recuperação de dados ................................................................................................... 2
Data mining ........................................................................................................................................ 2
2. Conceitos básicos ............................................................................................................. 3
2.1. Processo de mineração .............................................................................................. 8
2.2. Técnicas de pré-processamento ........................................................................... 13
2.3. Tarefas de mineração ............................................................................................... 15
2.3.1. Regras de associação............................................................................................ 15
2.3.2. Classificação ............................................................................................................. 18
2.3.3. Agrupamento (Clustering) .................................................................................. 21
2.3.4. Abordagem para outros problemas de mineração .................................... 23
2.4. Conceitos Complementares .................................................................................... 25
Visualização e análise exploratória de dados ...................................................................... 28
OLAP .................................................................................................................................................... 30
3. Conceitos básicos ........................................................................................................... 30
4. OLAP x OLTP..................................................................................................................... 31
5. Operações OLAP.............................................................................................................. 33
6. Arquitetura de servidores OLAP................................................................................ 41
7. Critérios de avaliação de produtos OLAP .............................................................. 44
Questões Comentadas.............................................................................................................. 47
Considerações Finais ..................................................................................................................... 83
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br 1 de 83
1. Recuperação de dados
Nesta aula, nosso objetivo é apresentar as diferentes técnicas e
ferramentas que fazem acesso ao Data Warehouse (DW). É preciso entender que
cada uma delas atende a uma necessidade específica de usuários e clientes.
Vamos mostrar como recuperar as informações e como visualizar esses

dados após a execução de diferentes algoritmos ou consultas sobre o DW.
Dividimos nossa aula em algumas partes. Falaremos de data mining ou
mineração de dados e, em seguida, mostraremos as possibilidades de
visualização por meio dos painéis, dashboards e ferramentas OLAP -
processamento analítico on-line.
Data mining
Existe geralmente informação “escondida” nos dados que não são tão
evidentes no momento da leitura. Um analista humano pode levar semanas para
descobrir essa informação útil. A maioria dos dados de fato nunca é analisada.
Com o crescimento da capacidade de processamento e armazenamento surgem
perguntas sobre como identificar padrões (“X” acontece se...), exceções (isto
é diferente de... por causa de...), tendências (ao longo do tempo, “Y” deve
acontecer...) e correlações (se “M” acontece, “N” também deve acontecer).
Para ajudar a resolver esses questionamentos surge um conjunto de

conceitos relacionados à Data Mining. A figura abaixo tenta mostrar um pouco
do gargalo entre a quantidade de dados disponíveis e o tempo para tomada de
decisões. Veremos a estrutura teórica da matéria nesta parte da aula. Vem
comigo!

2. Conceitos básicos
Começamos os conceitos tentando responder ao seguinte
questionamento: O que é mineração de dados? Vários autores propuseram
definições semelhantes para o termo, vejamos algumas delas:
• Eduardo Gimenes: É o processo de extrair informação válida,

previamente desconhecida e de máxima abrangência a partir de grandes
bases de dados, usando-as para efetuar de decisões cruciais.
• Laudon&Laudon: Análise de grandes quantidades de dados a fim de

encontrar padrões e regras que possam ser usadas para orientar a
tomada de decisões e prever o comportamento futuro.
• Mineração de dados, ou data mining, é o processo de análise de conjuntos

de dados que tem por objetivo a descoberta de padrões interessantes e
que possam representar informações úteis.
Como o nome indica data mining se refere à mineração ou a descoberta

de novas informações em função de padrões ou regras em grandes quantidades
de dados. Para ser útil, na prática, a mineração de dados precisa ser realizada
eficientemente em grandes arquivos e banco de dados. Em outras palavras,
estamos fazendo uma extração não trivial de informação implícita, previamente
desconhecida e potencialmente útil de dados.
Vejamos outras definições possíveis para o termo. “A mineração de dados

é a aplicação de algoritmos específicos para extração de padrões a partir dos
dados” utilizada por FAYYAD. E “a mineração de dados se refere à extração, ou
mineração, de conhecimento a partir de grandes quantidades de dados” de HAN
e KAMBER.
Mineração envolve o uso de ferramentas sofisticadas de análise de dados

para descoberta de padrões e relacionamentos válidos, previamente
desconhecidos em grandes conjuntos de dados. Para ser útil, na prática, a
mineração de dados precisa ser realizada eficientemente em grandes arquivos e
banco de dados.
As técnicas tradicionais poderiam não se ajustar a enorme quantidade de

dados, alta dimensionalidade dos dados e heterogeneidade e natureza
distribuídas dos dados. Data Mining surge para completar essa lacuna. Sua base
teórica é uma mistura de diferentes disciplinas: Estatística, Aprendizado de
máquina, Banco de dados e Visualização.
Vamos então fazer uma questão CESPE sobre esses conceitos básicos par
a fixarmos o assunto.

1. Ano: 2016 Banca: CESPE Órgão: TCE-PA Prova: Auditor de Controle

Externo - Área Informática - Analista de Sistemas
Julgue o item a seguir, em relação a data warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base
de dados consiste na extração não trivial de conhecimento previamente
desconhecido e potencialmente útil.
Comentário: Após observar uma lista de definições do conceito de data-mining
podemos afirmar que essa alternativa está correta.
Gabarito: C.
Ok! Então, antes de começarmos a descrever o que mais faz parte da

mineração de dados, vamos tratar do que alguns autores conhecem como
falácias de Data Mining. São basicamente quatros:
• Data Mining é automático: é um processo, é iterativo, requer

supervisão.
• Investimentos são recuperados rapidamente: depende de muitos

fatores!
• Software são intuitivos e simples: é mais importante conhecer os

conceitos dos algoritmos e o negócio em si!
• Data Mining pode identificar problemas no negócio: DM pode

encontrar padrões e fenômenos, identificar causa deve ser feito por
especialistas.
Podemos concluir então que existe um processo iterativo, que requer

supervisão e depende de vários fatores para uma implementação de sucesso. É
importante entender os algoritmos, as tarefas e o negócio. Assim, é possível
encontrar os padrões e fenômenos sobre a massa de dados.
O uso da mineração de dados é, portanto, potencializada, por alguns

fatores: o volume de dados disponível atualmente é enorme, o fato dos dados
estarem mais organizados, os recursos computacionais estão cada vez mais
potentes, a competição empresarial exige técnicas mais modernas de decisão e
os programas comerciais de mineração de dados já podem ser adquiridos.
Vamos agora fazer mais uma questão do CESPE para fixação dos
conceitos.

2. Ano: 2015 Banca: CESPE Órgão: TCU Prova: Auditor Federal de

Controle Externo - Conhecimentos Gerais
No que concerne a data mining (mineração de dados) e big data, julgue o
seguinte item.
A finalidade do uso do data mining em uma organização é subsidiar a produção
de afirmações conclusivas acerca do padrão de comportamento exibido por
agentes de interesse dessa organização.
Comentário: Essa questão vai de encontro as falácias de mineração de dados.
Vejam que o CESPE foi preciso em usar o termo subsidiar. Assim, a mineração
deve contribuir para o processo de tomada de decisão com o processamento dos
dados por meio de algoritmos não triviais. Essa análise deve ser supervisionada
para obter um resultado mais consistente.
Gabarito: C.
Para executarmos qualquer análise sobre os dados é necessário que

tenhamos em mente qual a tarefa que estamos realizando. Uma tarefa de
mineração de dados consiste na especificação do que queremos buscar nos
dados. Podemos buscar por algum tipo de regularidade ou categoria de padrões
temos interesse em encontrar ou ainda padrões que poderiam nos surpreender
(por exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos
padrões usuais de seus gastos).
A classificação das tarefas pode ser feita de acordo com alguns critérios. O
primeiro divide as tarefas em descritivas e preditivas. As descritivas
caracterizam as propriedades gerais dos dados em um banco de dados. Estão
focadas em achar padrões reconhecidos por seres humanos para descrever os
dados. As preditivas, por outro lado, realizam uma inferência sobre os dados
atuais para fazer previsões futuras sobre os mesmos. Usa variáveis para prever
valores futuros ou desconhecidos de outras variáveis.
Outra taxonomia divide as tarefas em top-down e botton-up. Algumas

tarefas são abordadas de forma top-down chamado teste de hipóteses. Em
testes de hipóteses, um comportamento armazenado no banco de dados
passado é utilizado para verificar ou refutar notações preconcebidas, ideias
e palpites referentes às relações nos dados.
Outras tarefas são melhor abordadas de forma bottom-up chamado de

descoberta de conhecimento (Knowledge discorvery). Na descoberta de
conhecimento a análise sobre os dados é feita sem suposições prévias. Os dados
são autorizados a falar por si. Vejam que em todos os casos existe a
necessidade dos dados serem armazenados em formato digital, e isso já foi
cobrado pelo CESPE em provas anteriores. Vejamos:


seguinte item.
Quem utiliza o data mining tem como objetivo descobrir, explorar ou minerar
relacionamentos, padrões e vínculos significativos presentes em grandes massas
documentais registradas em arquivos físicos (analógicos) e arquivos lógicos
(digitais).
Comentário: A questão tenta associar dados armazenados em arquivos físicos,
por exemplo, livros em uma biblioteca, ao processo de mineração de dados.
Esses dados não conseguem ser analisados e validados pelo processo de
mineração. Assim a alternativa está incorreta.
Gabarito: E.
As tarefas adequadas para mineração de dados (não é limitado a essas)

são: Classificação (Preditiva), Clustering (Descritiva), Regra de Associação
(Descritiva), Regressão (Preditiva) e Detecção de desvios (Preditiva).
Outro ponto importante dentro do assunto são as técnicas de mineração

que consistem na especificação de métodos que nos garantam como descobrir
os padrões que nos interessam. Dentre as principais técnicas utilizadas em
mineração de dados, temos: técnicas estatísticas, técnicas de aprendizado de
máquina e técnicas baseadas em crescimento-poda-validação.
Por fim, temos três características que são aplicadas a muitos conjuntos
de dados e que possuem um impacto significativo sobre as técnicas de
mineração de dados: dimensão, dispersão e resolução. A dimensão refere-
se à quantidade de atributos de um conjunto de dados. A resolução está
relacionada à granularidade dos dados. Um conjunto de dados é muito disperso
quando para um atributo relevante, a maioria dos valores é NULL ou um valor
padrão. Esse conceito está relacionado à dispersão.
Vejamos uma questão da ESAF a respeito dos conceitos acima:
4. Questão 54 - ESAF - 2012 - CGU - Analista de Finanças e Controle -

prova 3 - Auditoria e Fiscalização – Geral
São características gerais de conjuntos de dados:
(a) disposição, dispersão e renderização.
(b) dimensão, posicionamento e homogeneidade.
(c) compatibilidade, dispersão e interação.
(d) dimensão, dispersão e resolução.
(e) portabilidade, concentração e resolução.
Comentário: Questão retirada de TAN et. al (2009, p. 35), que destaca três
características aplicadas a muitos conjuntos de dados e que possuem um
impacto significativo sobre as técnicas de mineração de dados: dimensão,
dispersão e resolução. Vejamos novamente a definição destes conceitos.
A dimensão refere-se à quantidade de atributos de um conjunto de dados;
A resolução está relacionada à granularidade dos dados.
Um conjunto de dados é muito disperso quando para um atributo relevante, a
maioria dos valores é NULL ou um valor padrão, e esse conceito está relacionado
à dispersão.
Gabarito: D.
Um último conceito que já foi cobrado em provas de concurso diz respeito

aos métodos para identificar padrões em dados, que são basicamente três:
- Modelos simples (consultas baseadas em SQL, OLAP, raciocínio

humano).
- Modelos intermediários (regressão, árvores de decisão,

agrupamento).
- Modelos complexos (redes neurais, indução de regras).
Veja que esse conceito também já foi cobrado em provas anteriores,

também pela ESAF, mas como está presente nos capítulos introdutórios dos
livros pode ser que aparece novamente. Vejamos a questão:
5. Questão 55 - ESAF - 2012 - Receita Federal - Analista Tributário da RF

- Prova 2 - Área Informática
Um data mining inteligente descobre informações em data warehouses onde
consultas e relatórios não conseguem revela-las. Ferramentas dedata
mining encontram padrões em dados e podem até deduzir regras a partir deles.
Os métodos usados para identificar padrões em dados são:
(a) modelos simples, modelos intermediários e modelos complexos.
(b) modelos simples, modelos físicos e modelos integrados.
(c) modelos híbridos, modelos top-down e modelos bottom-up.
(d) modelos lógicos, modelos físicos e modelos interativos.
(e) modelos básicos, modelos genéricos e modelos complementares.
Comentário: De acordo com NEMATI e BARKO são usados três métodos para
identificar padrões em dados:
- Modelos simples (consultas baseadas em SQL, OLAP, raciocínio humano)
- Modelos intermediários (regressão, árvores de decisão, agrupamento)

- Modelos complexos (redes neurais, outra indução de regras)

Gabarito: A.
2.1. Processo de mineração

Antes de falar do processo de mineração propriamente dito vamos
examinar a figura abaixo que trata do processo de BI.
Baseado na figura é possível listar as etapas do processo:
1. Limpeza dos dados: etapa onde são eliminados ruídos e dados

inconsistentes.
2. Integração dos dados: etapa onde diferentes fontes de dados podem

ser combinadas produzindo um único repositório de dados.
3. Seleção: etapa onde são selecionados os atributos que interessam ao

usuário. Por exemplo, o usuário pode decidir que informações como endereço e
telefone não são de relevantes para decidir se um cliente é um bom comprador
ou não.
4. Transformação dos dados: etapa onde os dados são transformados

num formato apropriado para aplicação de algoritmos de mineração (por
exemplo, através de operações de agregação).
5. Mineração: etapa essencial do processo consistindo na aplicação de

técnicas inteligentes a fim de se extrair os padrões de interesse.
Esse fluxo já foi assunto de questões em certames anteriores. Vejamos

um exemplo de questão:
6. Questão 57. INFRAERO - Analista Superior III -Analista de Sistemas -

Administrador de BD -2011
Q.50. No âmbito da descoberta do conhecimento (KDD), a visão geral das

etapas que constituem o processo KDD (Fayyad) e que são executadas de forma
interativa e iterativa apresenta a seguinte sequência de etapas:
(a) seleção, pré-processamento, transformação, data mining e
interpretação/avaliação.
(b) seleção, transformação, pré-processamento, interpretação/avaliação e data
mining.
(c) data warehousing, star modeling, ETL, OLAP e data mining.
(d) ETL, data warehousing, pré-processamento, transformação e star modeling.
(e) OLAP, ETL, star modeling, data mining e interpretação/avaliação.
Comentário: Analisando o fluxo acima, podemos marcar a resposta na
alternativa A. Ela reflete exatamente o fluxo de KDD definido acima.
Gabarito: A.
O processo de mineração de dados se assemelha um pouco ao processo

de BI descrito acima. Propõe uma visão geral do ciclo de vida de um projeto
de mineração de dados. Vejam a figura abaixo:
Em 1996, um conjunto de três empresas especializadas no então jovem e

imaturo mercado de data mining, desenvolveram um modelo de processos
genéricos, com o intuito de padronizar as etapas do processo de mineração de
dados, dando início ao denominado projeto CRISP-DM (CRoss Industry Standard
Process for Data Mining) [The CRISP-DM Consortium, 2000].
Na figura anterior é mostrado o ciclo de vida de um projeto de mineração

de dados, que consiste de seis fases. A sequência de fases não é obrigatória,
ocorrendo a transição para diferentes fases, dependendo do resultado de cada
fase, e que etapa particular de cada fase precisa ser executada em seguida. As

setas indicam as mais importantes e mais frequentes dependências entre as

fases.
O ciclo externo na figura simboliza o ciclo natural da mineração de dados.

Um processo de mineração de dados continua após a solução ter sido
desenvolvida. As lições aprendidas durante o processo podem provocar
perguntas novas, frequentemente mais pertinentes ao negócio. Processos
subsequentes se beneficiarão das experiências de processos anteriores.
O entendimento do negócio (Business Understanding) foca no

entendimento do negócio que visa obter conhecimento sobre os objetivos do
negócio e seus requisitos.
Uma vez definido o domínio sobre o qual se pretende executar o processo

de descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou
variáveis necessárias. Consiste no entendimento dos dados utilizando-se de
conjuntos de dados "modelo".
Essa fase se inicia com uma coleta inicial de dados, e com

procedimentos e atividades visando à familiarização com os dados, para
identificar possíveis problemas de qualidade, ou detectar subconjuntos
interessantes para formar hipóteses.
A próxima etapa é a limpeza dos dados (Data Preparation) que consiste

na preparação dos dados que visa à limpeza, transformação, integração e
formatação dos dados da etapa anterior.
É a atividade pela qual os ruídos, dados estranhos ou inconsistentes são

tratados. Esta fase abrange todas as atividades para construir o conjunto de
dados final (dados que serão alimentados nas ferramentas de mineração), a
partir do conjunto de dados inicial.
A utilização de Data Warehouses facilita em muito esta etapa do processo

de mineração de dados, que costuma ser a fase que exige mais esforço,
correspondendo geralmente a mais de 50% do trabalho. Por isso, é muito
importante para uma organização, que ela possua em seus processos habituais
boas práticas da administração de dados, como o Data Cleansing ou data
cleaning, que é uma parte fundamental da cadeia da administração da
informação, responsável pelas etapas de detecção, validação e correção de erros
em bases de dados.
Vejamos uma questão sobre o assunto:

7. Ano: 2015 Banca: CESPE Órgão: TJ-DFT Prova: Técnico Judiciário -

Programação de Sistemas
Julgue o item a seguir, a respeito de datawarehouse e de datamining.
Em um processo de mineração, durante a etapa de preparação dos dados, são
analisados os requisitos de negócio para consolidar os dados.
Comentário: Vejam que o processo tem uma etapa específica para analisar os
requisitos de negócio. Em outra etapa temos a preparação dos dados. Logo, a
afirmação acima está incorreta.
Gabarito: E.
A próxima fase é a Modelagem dos Dados (Modeling). Nessa fase, várias

técnicas de modelagem são selecionadas e aplicadas, e seus parâmetros são
calibrados para se obter valores otimizados. Geralmente, existem várias técnicas
para o mesmo tipo de problema de mineração.
Algumas técnicas possuem requerimentos específicos na forma dos dados.

Consequentemente, voltar para a etapa de preparação de dados é
frequentemente necessário. A maioria das técnicas de mineração de dados é
baseada em conceitos de aprendizagem de máquina, reconhecimento de
padrões, estatística.
Seguindo o fluxo temos a Avaliação do processo (Evaluation). Neste

momento visamos garantir que o modelo gerado atenda às expectativas da
organização. Os resultados do processo de descoberta do conhecimento podem
ser mostrados de diversas formas.
Porém, estas formas devem possibilitar uma análise criteriosa para

identificar a necessidade de retornar a qualquer um dos estágios anteriores do
processo de mineração. Nesta etapa se construiu um modelo que parece de alta
qualidade, de uma perspectiva da análise de dados.
Antes de prosseguir, é importante avaliar mais detalhadamente o modelo,

e rever as etapas executadas para construir o modelo, para se certificar de que
ele conseguirá alcançar os objetivos de negócio. Deve se determinar se houve
algum importante objetivo do negócio que não foi suficientemente alcançado. No
fim desta fase, uma decisão sobre o uso dos resultados da mineração deve ser
tomada.
A execução (Deployment) consiste na definição das fases de implantação

do projeto de Mineração de Dados. A criação do modelo não é o fim do projeto.
Mesmo se a finalidade do modelo for apenas aumentar o conhecimento dos
dados, o conhecimento ganho necessitará ser organizado e apresentado em uma
maneira que o cliente possa usar.
Dependendo das exigências, a fase de execução pode ser tão simples

quanto a geração de um relatório, ou tão complexo quanto executar processos

de mineração de dados repetidamente. Em muitos casos será o cliente, não o

analista dos dados, que realizará as etapas da execução. Entretanto, mesmo se
o analista não se encarregar da execução é importante que ele faça o cliente
compreender que medidas deverão ser tomadas a fim de empregar efetivamente
os modelos criados.
Com isso terminamos nossa rápida explicação sobre o processo de

mineração de dado descrito pelo CRISP-DM. Vamos agora tratar das tarefas de
mineração. Antes, porém, vamos fazer mais duas questões sobre o assunto:
8. Ano: 2014 Banca: CESPE Órgão: ANTAQ Prova: Analista

Administrativo - Infraestrutura de TI
A respeito de Data Warehouse e Data Mining, julgue os itens subsecutivos.
Em um processo de descoberta do conhecimento, um Data Mining executado
para atingir uma meta pode falhar nas classes de predição, de identificação, de
classificação e de otimização.
Comentário: Vejam que a modelagem existe justamente para que o processo
possa ser testado antes de ir para execução. Ainda assim, podemos ter falhas
devido a uma mudança nos perfis dos dados. Por isso, que o fluxo é interativo e
incremental. Logo, a alternativa está correta!
Gabarito: C.
9. Ano: 2017 Banca: FCC Órgão: TRT-11 Cargo: Técnico Judiciário de TI

– Q. 47
Sistemas do tipo I e do tipo II realizam tarefas diferentes, porém

complementares. O tipo I é adequado para atividades como indexação de dados,
alocação de custos, análises de séries temporais e análises “what-if”. Porém, a
maioria dos sistemas do tipo I não tem a capacidade de realizar inferências
indutivas, processo que permite chegar a conclusões genéricas a partir de
exemplos específicos, que são uma característica nativa de sistemas do tipo II.
Sistemas do tipo I fornecem uma visão multidimensional de dados, incluindo
suporte a hierarquias. Essa visão de dados é uma forma natural de analisar
negócios e organizações. Sistemas do tipo II, por outro lado, podem ajudar a
detectar tendências, encontrar padrões e relações entre as informações
disponíveis em bancos de dados. Os sistemas do tipo II podem encontrar
informações ocultas nos dados disponíveis, mas é o gestor quem deve atribuir o
valor de cada uma dessas descobertas para a organização.
Os sistemas do tipo I e II são, correta e respectivamente,
(A) OLAP e Data Warehouse.
(B) Data Warehouse e Data Mining.

(C) Banco de Dados Multidimensional e Banco de Dados Relacional.

(D) Data Mining e Data Warehouse.
(E) OLAP e Data Mining.
Comentário: Para responder a questão precisamos estar seguros de alguns
conceitos. O primeiro deles se refere a capacidade de análise de uma ferramenta
OLAP. Vejam o texto que eu encontrei na internet que trata da relação de OLAP
e Data mining:
“OLAP é a sigla para On-Line Analytical Processing. Refere-se a análises rápidas
de dados multidimensionais compartilhados. OLAP e mineração de dados são
coisas diferentes, porém complementares.
OLAP é adequado para atividades como indexação de dados, alocação de custos,
análises de séries temporais e análises “what-if”. Porém, a maioria dos sistemas
de OLAP não têm a capacidade de realizar inferências indutivas além das
análises preditivas limitadas a esses fatores.
A inferência indutiva, processo que permite chegar a conclusões genéricas a
partir de exemplos específicos, é uma característica nativa de data mining.
Talvez você já tenha visto referências a esse conceito, como “aprendizado de
máquina”.
Sistemas de OLAP fornecem uma visão multidimensional de dados, incluindo
suporte total a hierarquias. Essa visão de dados é uma forma natural de analisar
negócios e organizações. Minerar dados, por outro lado, normalmente não conta
com os conceitos de dimensões e hierarquias.
Data mining pode ajudar a detectar tendências como “propensão de uma pessoa
a comprar” e “propensão de um cliente a interromper a assinatura do serviço” (o
infame “churn“). Os sistemas OLAP podem, então, agregar e indexar estas
probabilidades. ”
Curiosidade: O que seria uma análise “what-if”? Na análise do tipo What If, o
usuário final introduz mudanças nas variáveis ou nas relações entre
varáveis e observa as mudanças resultantes nos valores de outras variáveis. Ou
seja, trata de como uma mudança de uma variável afeta outras Ex: O que
ocorre se reduzirmos a propaganda em 10%?
Gabarito: E.
2.2. Técnicas de pré-processamento

Nesta parte da aula vamos apresentar algumas técnicas que nos
permitem fazer ajustes nos dados para facilitar a mineração, bem como para
garantir que a síntese feita sobre os dados produza alguma informação
consistente. Confesso que você pode entender essas técnicas como a aplicação
das técnicas de transformação das ferramentas ETL.
Os dados no mundo real são “sujos”, ou seja, podem por exemplo,

estarem incompletos com valores faltantes, atributos faltantes. Outra
possibilidade é a existência de ruídos, que provocam erros ou outliers sobre os
dados. Por fim, podemos verificar a consistência entre atributos, por exemplo, a

data de nascimento e o atributo idade precisam ser compatíveis. Uma pessoa

que nasceu em 1983 não pode ter, em 2017, 50 anos.
Técnicas de pré-processamento e transformação de dados são aplicadas

para aumentar a qualidade e o poder de expressão dos dados a serem
minerados. Dados sem qualidade podem gerar uma mineração sem qualidade.
Que por consequência vão levar a decisões sem qualidade. Se os dados
estiverem duplicados ou faltantes podemos gerar cálculos estatísticos incorretos.
Esta fase tende a consumir uma parte significativa do tempo dedicado ao

processo de KDD. E para avaliar se a qualidade dos dados está de acordo com a
necessidade das análises de mineração precisamos avaliar alguns aspectos dos
dados como: acurácia, completude, consistência, se eles estão corretos em
relação ao tempo, confiabilidade, grau de agregação de valor, a capacidade de
interpretação dos mesmos e a acessibilidade.
Neste sentido algumas tarefas de pré-processamento podem ser

executadas. Antes de apresentar as tarefes gostaria de fazer duas
considerações. Primeiramente perceba que essas tarefas tem uma correlação
com as atividades de transformação do processo de ETL. Segundo, não confunda
essas tarefas (de pré-processamento) com as tarefas de mineração que veremos
a seguir.
• Limpeza dos Dados – Preenche valores faltantes, suaviza dados

ruidosos, identifica ou remove “outliers” e resolve inconsistências.
• Integração – Dados de origens diferentes devem ser integrados.
• Transformação – Normalização e agregação dos dados.
• Redução - Tenta reduzir o volume de dados sem provocar grandes

alterações no resultado final.
• Discretização – Faz parte do processo de redução, mas tem papel

importante, especialmente com dados numéricos. Visa estabelecer
valores discretos para variáveis contínuas.
Agora que já conseguimos diferenciar algumas tarefas de pré-

processamento, observe a figura abaixo para entender um pouco mais esses
conceitos.

2.3. Tarefas de mineração

Vamos falar agora das tarefas de mineração começando pela regra de
associação.
2.3.1. Regras de associação

As regras de associação relacionam a presença de um conjunto de itens
com outra faixa de valores de outro conjunto de variáveis. Podemos pensar nos
seguintes exemplos: 1. Quando uma mulher compra uma bolsa em uma loja, ela
está propensa a comprar sapatos (na mesma loja) e 2. Uma imagem de raio X
contendo as características a e b provavelmente exibirá também a característica
c (o mesmo raio-x). Veja as figuras abaixo que ilustram esses exemplos:
Uma regra de associação é um padrão da forma X  Y, onde X e Y são

conjuntos de valores. O seguinte padrão “clientes que compram pão também
compram leite” representa uma regra de associação que reflete um padrão de

comportamento dos clientes do supermercado. Descobrir regras de associação

entre produtos comprados por clientes numa mesma compra pode ser útil para
melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do
usuário ou induzi-lo a comprar mais.
seguinte item.
No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing
Comentário: Observamos que regra de associação é uma das tarefas que são
utilizadas pelo marketing. Desta forma, mineração de dados é sim umas das
ferramentas que podem ser utilizadas pelo marketing para auxiliar tomadas de
decisões da empresa. Logo a alternativa está incorreta.
Gabarito: E.
Os autores definem os conceitos de lado da mão direita e lado da mão

esquerda para ilustrar essa ideia de compra casada. É como se eu estivesse
propenso a consumir os dois produtos. A união entre o lado da mão esquerda e
o lado da mão direita gera outra definição conhecida como conjunto-item (o
conjunto de todos os itens comprados pelos clientes). Observe a figura abaixo
com o conjunto-item formado por picanha (Friboi é claro!) e carvão!
Para que uma regra de associação seja do interesse de um pesquisador de

dados, a regra precisa satisfazer algumas medidas. O suporte que define quão
frequente a regra acontece no banco de dados e a confiança que é a força da
regra. Vamos detalhar um pouco mais essas definições.
O Suporte é uma medida objetiva para avaliar o interesse de uma

regra de associação. Representa a porcentagem de transações (%) de um
banco de dados de transações onde a regra se verifica.

A Confiança é outra medida objetiva para regras de associação que

mede o grau de certeza de uma associação. Em termos estatísticos, trata-se
simplesmente da probabilidade condicional P (Y | X), isto é, a porcentagem
de transações contendo os itens de X que também contém os itens de Y.
Vamos fazer uma questão sobre o assunto. Desta vez, a banca em

questão é a FGV.
11. Ano: 2008 Banca: FGV Órgão: Senado Federal Cargo: Analista de
Sistemas
Considerando as diferentes técnicas de mineração de dados, NÃO é correto

afirmar que:
A) em Regras de Associação, confiança refere-se a quantas vezes uma regra de
associação se verifica no conjunto de dados analisado.
B) correlação canônica e análise múltipla de discriminante são técnicas utilizadas
para análise multivariada.
C) na análise de grupamentos, medidas de correlação, medidas de distância e
medidas de associação são alguns dos métodos utilizados para medir a
semelhança entre objetos.
D) a classificação é considerada um exemplo de aprendizado supervisionado,
enquanto o agrupamento é considerado exemplo de aprendizado não
supervisionado.
E) regressão é uma aplicação especial da regra de classificação, onde a regra é
considerada uma função sobre variáveis, mapeando-as em uma classe destino.
Comentários: Vejam que a alternativa A apresenta um conceito incorreto,
quem se refere a quantidade de vezes que uma regra se verifica é o suporte e
não a confiança. Desta forma, como a questão pede a alternativa incorreta, essa
é a nossa resposta.
A demais alternativas estão corretas, falaremos sobre elas nas próximas
páginas.
Gabarito: A.
O problema de regras de associação pode ser decomposto em três passos

principais:
1. Gerar todas as combinações de itens.
2. Descobrir conjuntos de itens: Este passo consiste em gerar um

conjunto com todas as combinações de itens obedecendo a um limiar, chamado
suporte mínimo. As combinações que satisfazem esta condição são chamadas
de conjunto de itens grandes, enquanto que os que não satisfazem, são
chamados de conjunto de itens pequenos.

3. Gerar as regras de associação para a base de dados: Após o conjunto

de itens finais ter sido produzido, deve-se gerar as regras de associação de um
conjunto de itens Y = I1,I2,,...,Ik, sendo k ≥ 2. O antecedente da regra será um
conjunto X de Y tal que, X possua k-1 itens, e o consequente seja Y – X. Para
verificar a validade de uma regra, a confiança da regra (suporte(Y) / suporte(X))
deve satisfazer o valor mínimo de confiança informado.
Uma pergunta pode ser relevante neste momento: como descobri todos
os conjuntos de itens grandes?
Temos que verificar duas propriedades: 1. Fechamento por baixo, ou

seja, um itemset grande também deve ser grande (desta forma cada
subconjunto de um itemset excede o suporte mínimo exigido). 2.
Antimonotonicidade um superconjunto de um itemset pequeno também é
pequeno (implicando que ele não tem suporte suficiente). Sendo assim quando
se descobre um itemset pequeno, então qualquer extensão deste itemset será
pequeno.
2.3.2. Classificação
Parece ser um imperativo humano. A fim de compreender e comunicar
sobre o mundo que estamos constantemente a classificar, categorizar e
classificar. Dividimos as coisas vivas em filos, espécies e gênero; matéria em
elementos; cães em raças, as pessoas em raças. Os objetos a serem
classificados são geralmente representados por registros em um banco de dados
ou um arquivo, e o ato de classificação consiste em adicionar uma nova coluna
com um código de classe de algum tipo.
Uma das tarefas mais comuns dentro de mineração de dados. Consiste

em examinar as características de um objeto recém apresentados e atribuí-lo a
um dos conjuntos predefinidos de classes. A tarefa de classificação é
caracterizada por uma definição das classes (1), e conjunto dados para
aprendizado (2) pré-classificados.
Uma definição mais formal para a classificação é a tarefa de aprendizado

de uma função alvo f que mapeia cada atributo de um conjunto x para um rótulo
de classe predefinido y. Essa descrição foi dada por Tan em seu livro de
mineração e pode ser observada na figura abaixo:
O modelo construído baseia-se na análise prévia de um conjunto de

dados de amostragem ou dados de treinamento, contendo objetos corretamente
classificados. Por exemplo, suponha que o gerente do supermercado está

interessado em descobrir que tipo de características classificam seus clientes em
“bom comprador” ou “mau comprador”. Um modelo de classificação poderia
incluir a seguinte regra: “Clientes da faixa econômica B, com idade entre 50 e 60
são maus compradores”.
Vejamos uma questão do CESPE sobre esse assunto:
12. Ano: 2015 Banca: CESPE Órgão: MEC Prova: Administrador de

Banco de Dados
Julgue o item seguinte, referente a data mining.
9 data mining pode ser classificado como
O conhecimento obtido no processo de
uma regra de associação quando, em um conjunto de eventos, há uma
hierarquia de tuplas sequenciais.
Comentário: Vejam que a tarefa de classificação tem um objetivo diferente da
regra de associação. Os eventos que ocorrem em conjunto, como as compras
em um supermercado são descritos por uma regra de associação.
A classificação reconhece modelos que descrevem o grupo ao qual o item
pertence por meio do exame dos itens já classificados e pela inferência de um
conjunto de regras.
Por exemplo: empresas de operadoras de cartões de crédito e companhias
telefônicas preocupam-se com a perda de clientes regulares, a classificação pode
ajudar a descobrir as características de clientes que provavelmente virão
abandoná-las e oferecer um modelo para ajudar os gerentes a prever quem são,
de modo que se elabore antecipadamente campanhas especiais para reter esses
clientes.
Assim, observamos que a alternativa está incorreta.
Gabarito: E.
São técnicas usualmente empregadas em tarefas de classificação árvores

de decisão e redes neurais. Boa parte dos métodos de classificação utilizam
técnicas estatísticas e de aprendizado de máquina. Segundo o Navathe,
classificação é o processo de encontrar um conjunto de modelos (funções) que
descrevem e distinguem classes ou conceitos.
Tem o propósito de utilizar o modelo para predizer a classe de objetos que

ainda não foram classificados. Utiliza um aprendizado supervisionado para
separa classes em grupos distintos. Vejam um exemplo na figura abaixo:

Na classificação o objetivo é a construção de um modelo que possa ser

aplicado a dados não classificados e classificá-los. São exemplos de tarefas de
classificação que foram abordados através de técnicas de mineração de dados:
classificação de pedido de crédito como baixo, médio ou alto risco, escolher
conteúdo a ser exibido em uma página Web, determinar quais os números de
telefone correspondem a máquinas de fax, descobrir sinistros fraudulentos e
atribuir códigos da indústria e denominações de emprego com base nas
descrições de texto livre. e
Em todos os exemplos, há um número limitado de classes, e espera-

se ser capaz de atribuir qualquer registo em um ou outra. As árvores de
decisão e técnicas semelhantes são bem adaptadas para a classificação. Rede
neural e análise de links também são úteis para a classificação de certas
circunstâncias. Vejam na figura a seguir um fluxo que mostra o funcionamento
de um algoritmo de classificação:
Antes de seguirmos para a próxima tarefa, vejamos uma questão do

CESPE sobre esse assunto:

13. Ano: 2016 Banca: CESPE Órgão: FUNPRESP-JUD Prova: Analista -

Tecnologia da Informação
Julgue o item subsecutivo, referente às tecnologias de bancos de dados.
Em Data Mining, as árvores de decisão podem ser usadas com sistemas de
classificação para atribuir informação de tipo.
Comentário: A questão mostra uma das técnicas que podem ser usadas para
implementação da tarefa de classificação. Vimos na parte teórica da aula que
essa afirmação está correta.
Gabarito: C.
2.3.3. Agrupamento
8 (Clustering)
Diferentemente da classificação e predição onde os dados de treinamento
estão devidamente classificados e as etiquetas das classes são conhecidas, a
análise de clusters trabalha sobre dados onde as etiquetas das classes não estão
definidas.
A técnica consiste em identificar agrupamentos de objetos, estes que

identificam uma classe. Trabalha sobre dados onde as etiquetas das classes
não estão definidas. Conhecido também por aprendizado não
supervisionado e, às vezes, chamado de classificação por estatísticos e de
segmentação por pessoas de marketing.
Vamos resolver uma questão para entendermos melhor esse conceito:
14. Ano: 2016 Banca: CESPE Órgão: TCE-SC Prova: Auditor Fiscal de
Controle Externo - Informática
Julgue o item subsecutivo, acerca de mineração de dados.
As aglomerações, tipos de informação obtidos por meio da mineração de dados,
caracterizam-se por se ligarem a um único e específico evento, em torno do qual
ocorrem várias ações, com produção sistêmica de informações gerenciais que
apoiarão uma nova ocorrência do mesmo tipo de evento.
Comentário: Nesta questão temos uma confusão entre o conceito de
aglomeração e o de regra de associação. Essa falha torna a alternativa incorreta.
Gabarito: E.
Queremos achar grupos naturais nos dados onde dados em um mesmo

grupo são semelhantes entre si e dados de grupos diferentes são diferentes

entre si. Mas como medir essa semelhança. Existem algumas métricas para
calcular as distâncias e dissimilaridades entre os itens de dados.
As medidas de distância podem ser calculadas entre dois objetos. Sejam

O1 e O2 dois objetos de um universo de possíveis objetos. A distância
(dissimilaridade) entre O1 e O2 é um número real denotado por D (O1,O2).
Observem a figura abaixo para entender melhor o conceito:
Algumas propriedades podem ser analisadas nas medidas de distância. A

simetria (D (A,B) = D (B,A)), caso ccontrário você poderia afirmar que “Alex
parece com Bob, mas Bob não parece com Alex”. A constância de auto
simetria (D (A,A) = 0), caso contrário você poderia afirmar que “Alex parece
mais com Bob, do que o próprio Bob”.
A positividade (D(A,B) = 0  A = B) caso contrário existiriam objetos

no seu mundo que são diferentes, mas você não consegue diferenciá-los. E a
desigualdade triangular (D (A,B) ≤ D(A,C) + D (B,C)) caso contrário você
poderia afirmar que “Alex é parecido com Bob, e Alex é parecido com Carl, mas
Bob não se parece com Carl”.
O CESPE já cobrou isso em provas anteriores, vamos ver como:
15. Ano: 2017 Banca: CESPE Órgão: SEDF Prova: Analista de Gestão
Educacional - Tecnologia da Informação
Com relação a data mining e data warehouse, julgue o item que se segue.
Agrupar registros em grupos, de modo que os registros em um grupo sejam
semelhantes entre si e diferentes dos registros em outros grupos é uma maneira
de descrever conhecimento descoberto durante processos de mineração de
dados.
Comentário: Vejam que a questão apresenta uma definição coerente, a
aglomeração (clustering) funciona de maneira semelhante a classificação quando
ainda não foram definidos grupos. Uma ferramenta de data mining descobrirá
diferentes agrupamentos dentro da massa de dados. Por exemplo ao encontrar
grupos de afinidades para cartões bancários ou ao dividir o banco de dados em
categorias de clientes com base na demografia e em investimentos pessoais.
Neste caso, temos que lembrar que o interesse da aglomeração é segmentar
uma amostra, em classe pré-definida. Não estamos tentando classificar novos
valores.

A alternativa, portanto, está correta!

Gabarito: C.
Podemos usar alguns tipos de algoritmos para agrupamentos. Algoritmos

particionais que objetivam construir diversas partições e avaliá-las com algum
critério. Algoritmos hierárquicos que criam uma decomposição hierárquica de
um conjunto de objetos utilizando algum critério. Vejam o exemplo abaixo:
Por exemplo, poderíamos aplicar análise de clusters sobre o banco de

dados de um supermercado a fim de identificar grupos homogêneos de clientes.
Clientes residentes em determinados pontos da cidade costumam vir ao
supermercado aos domingos. Enquanto clientes residentes em outros pontos da
cidade costumam fazer suas compras às segundas-feiras.
Vejamos uma questão do CESPE sobre esse assunto.
16. CESPE - 2013 - MPU - Analista - Suporte e Infraestrutura

Julgue os próximos itens, acerca de sistemas de suporte à decisão.
[100] Em se tratando de mineração de dados, a técnica de agrupamento
(clustering) permite a descoberta de dados por faixa de valores, por meio do
exame de alguns atributos das entidades envolvidas.
Comentário: Segundo Navathe, "O objetivo do agrupamento é colocar registros
em grupos, de modo que os registros em um grupo sejam semelhantes uns aos
outros e diferentes dos registros em outros grupos. Os grupos costumam ser
disjuntos."
Gabarito: C.
2.3.4. Abordagem para outros

problemas de mineração

Análise de padrões sequenciais - Um padrão sequencial é uma

expressão da forma < i1;.....; in >, onde cada i é um conjunto de itens. A
ordem em que estão alinhados estes conjuntos reflete a ordem cronológica em
que aconteceram os fatos representados por estes conjuntos. Assim, por
exemplo, a sequência < {carro}, {pneu, toca-fitas} > representa o padrão
“Clientes que compram carro, tempos depois compram pneu e toca-fitas de
carro”. Descobrir tais padrões sequenciais em dados temporais pode ser útil em
campanhas de marketing, por exemplo.
Análise de Padrões em Séries Temporais - O preço de fechamento de

uma ação ou de um fundo de investimentos é um evento que ocorre a cada dia
da semana para cada fundo ou ação. Sequencias desses valores são exemplos
de uma serie temporal. Séries temporais são sequencias de eventos, cada
evento pode ser um tipo fixo dado uma transação.
Uma série temporal é uma coleção de observações feitas sequencialmente

ao longo do tempo. Em séries temporais a ordem dos dados é fundamental. Uma
característica muito importante deste tipo de dados é que as observações
vizinhas são dependentes e o interesse é analisar e modelar está dependência.
Predição – Consultando o dicionário encontramos a seguinte definição:

dizer antecipadamente o que vai acontecer, seja por meio de regras certas,
pretensa adivinhação ou conjetura. Em algumas aplicações, o usuário está mais
interessado em predizer alguns valores ausentes em seus dados, em vez de
descobrir classes de objetos. Isto ocorre, sobretudo, quando os valores que
faltam são numéricos. Neste caso, a tarefa de mineração é denominada
Predição.
Análise de Outliers - Um banco de dados pode conter dados que não

apresentam o mesmo comportamento padrão da maioria. Estes dados são
denominados outliers (exceções). Muitos métodos de mineração descartam estes
outliers como sendo ruído indesejado. Entretanto, em algumas aplicações, tais
como detecção de fraudes, estes eventos raros podem ser mais interessantes do
que eventos que ocorrem regularmente. Por exemplo, podemos detectar o uso
fraudulento de cartões de crédito ao descobrir que certos clientes efetuaram
compras de valor extremamente alto, fora de seu padrão habitual de gastos.
Veja que você pode descobri fraudes por analise de outleirs ou

classificação. No primeiro você conhece o padrão dos dados ou transações
comuns ao banco de dados e algo que não se adapte a esse padrão é um ponto
fora da curva. No segundo você treina um modelo para que ele reconheça
padrões de fraude.
Regressão - Regressão é uma aplicação especial da regra de

classificação. Se uma regra de classificação é considerada uma função sobre
variáveis que as mapeia em uma classe destino, a regra é chamada regressão.

Uma aplicação de regressão ocorre quando, em vez de mapear uma tupla de

dados de uma relação para uma classe específica, o valor da variável é previsto
baseado naquela tupla.
Quando: Y = f(x1, x2, ..., xn). Uma função f é linear no domínio das
variáveis xi, o processo de derivar f de um dado conjunto de tuplas para <x1,
x2, ... Xn, y> é chamado regressão linear.
17. Ano: 2015 Banca: CESPE Órgão: MEC Prova: Administrador de

Dados
Acerca de data warehouse (DW), Business Intelligence (BI) e data mining,
julgue o item que se segue.
Situação hipotética: Após o período de inscrição para o vestibular de
determinada universidade pública, foram reunidas informações acerca do perfil
dos candidatos, cursos inscritos e concorrências. Ademais, que, por meio das
soluções de BI e DW que integram outros sistemas, foram realizadas análises
para a detecção de relacionamentos sistemáticos entre as informações
registradas. Assertiva: Nessa situação, tais análises podem ser consideradas
como data mining, pois agregam valor às decisões do MEC e sugerem
tendências, como, por exemplo, o aumento no número de escolas privadas e a
escolha de determinado curso superior.
Comentário: Observem que a afirmação está correta e de acordo com o
que vimos até aqui.
Gabarito: C.
2.4. Conceitos Complementares

Para concluirmos o conteúdo de Data Mining vamos tratar de alguns
termos complementares presentes da literatura especializada que ainda não
foram vistos ao longo da nossa aula.
Alguns autores classificação mineração de dados de acordo com a forma.

Essa classificação possui três categorias: Preditivo, Textual e Espacial. Veja a
definição de cada um deles abaixo:
• Preditivo - A data mining pode mostrar como certos atributos dos dados
irão se comportar no futuro
• Textual - Processo de obtenção de informação utilizando fontes de dados

textuais. Aplicações em classificação automática de textos e busca de
agrupamentos.
• Espacial - Processo de descoberta de padrões utilizando bancos de dados

espaciais povoados por mapas.
A mineração de dados apoia o conhecimento indutivo, que descobre novas

regras e padrões nos dados fornecidos. O conhecimento pode ser representado
de muitas formas:
1. Quando não estruturado, pode ser representado por regras ou por

lógica proposicional.
2. Em uma forma estruturada, podem ser representados por árvores

de decisão, redes semânticas, redes neurais ou hierarquias de
classes ou frames.
OLAP x Data Mining
O termo para processamento analítico on-line representa a característica

de trabalhar os dados com operadores dimensionais. OLAP possibilita uma forma
múltipla e combinada de análise.
Data Mining está mais relacionado com os processos de análise de

inferência do que com a análise dimensional de dados. Representa uma forma
de busca de informação baseada em algoritmos que objetivam o reconhecimento
de padrões escondidos nos dados. Esses padrões não são necessariamente
revelados pelas outras abordagens analíticas, como o OLAP.
Mineração de texto
Considerada uma evolução da área de Recuperação de Informações (RI),

a Mineração de textos (Text Mining) é um processo que utiliza técnicas de
análise e extração de dados a partir de textos, frases ou apenas palavras.
Envolve a aplicação de algoritmos computacionais que processam textos e
identificam informações úteis e implícitas, que normalmente não poderiam ser
recuperadas utilizando métodos tradicionais de consulta, pois a informação
contida nestes textos não pode ser obtida de forma direta, uma vez que, em
geral, estão armazenadas em formato não estruturado.
Os benefícios da mineração de textos podem se estender a qualquer

domínio que utilize textos, sendo que suas principais contribuições estão
relacionadas à busca de informações específicas em documentos, à análise
qualitativa e quantitativa de grandes volumes de textos, e a melhor
compreensão do conteúdo disponível em documentos textuais.
A ferramenta de busca do Google é um ótimo exemplo de mineração de

texto. Existem vários algoritmos que classificam e ordenam os textos que
aparecem como resultado das nossas consultas. Textos estes que podem estar
representados das mais diversas formas, dentre elas: e-mails; arquivos em
diferentes formatos (pdf, doc, txt, por exemplo); páginas Web; campos textuais
em bancos de dados; textos eletrônicos digitalizados a partir de papéis.

Existem várias definições para mineração de textos. Segundo Lopes, o

termo se refere ao processo de extração de padrões interessantes e não triviais,
ou conhecimento a partir de documentos em textos não-estruturados. Moura
descreve a mineração de textos, como sendo uma área de pesquisa tecnológica
cujo objetivo é a busca por padrões, tendências e regularidades em textos
escritos em linguagem natural.
Já Wives, afirma que a mineração de textos pode ser entendida como a

aplicação de técnicas de KDD sobre dados extraídos de textos. Na prática, a
mineração de textos define um processo que auxilia na descoberta de
conhecimento inovador a partir de documentos textuais, que pode ser utilizado
em diversas áreas do conhecimento.
Para finalizar vamos apresentar uma última definição de data mining: “A

mineração de dados é um campo interdisciplinar que reúne técnicas
de aprendizado de máquina, reconhecimento de padrões,
estatísticas, banco de dados e visualização para abordar a questão da
extração de informações a partir de grandes bases de dados”.
18. Ano: 2015 Banca: CESPE Órgão: DEPEN Prova: Agente

Penitenciário Federal - Área 7
Acerca de data warehouse e data mining, julgue o item subsequente.
Os objetivos do data mining incluem identificar os tipos de relacionamentos que
se estabelecem entre informações armazenadas em um grande repositório.
Comentário: Essa questão finaliza nossa parte teórica de mineração de dados.
Ao analisar o texto, podemos verificar que essa é uma afirmação coerente com o
assunto que vimos até aqui. Logo, a alternativa está correta.
Gabarito: C.

Visualização e análise exploratória de dados
Esta é a parte do assunto que permite exibir os resultados de uma análise

de dados. A visualização é estudada dentro do contexto procurando entender as
diferentes formas de exibição do conteúdo produzido a partir dos dados
armazenados. Como é possível exibir os dados? Quem são os interessados?
Veremos isso nas próximas linhas.
Devido à forma como o cérebro humano processa as informações, é mais

rápido para as pessoas compreenderem o significado das diferentes perspectivas
sobre os dados quando eles são exibidos em tabelas e/ou gráficos, em vez de
debruçado sobre pilhas de folhas de cálculo ou páginas de leitura e de relatórios.
Visualização de dados trata da forma de apresentação dos dados em um

formato pictórico (por meio de desenhos) ou gráfica. Durante séculos, as
pessoas têm dependido de representações visuais, como gráficos e mapas para
compreender a informação mais fácil e rapidamente.
À medida que mais e mais dados são coletados e analisados, os tomadores

de decisão, em todos os níveis, devem utilizar software de visualização de dados
que lhes permitam ver os resultados analíticos visualmente. Com essas
ferramentas podemos encontrar relevância entre as milhões de variáveis,
comunicar conceitos e hipóteses aos outros, e até mesmo, prever o futuro.
Visualização interativa – A visualização de dados interativa vai um passo

além – fornecendo algo mais do que a exibição de gráficos estáticos e planilhas.
Faz uso de computadores e dispositivos móveis para penetrar em tabelas e
gráficos visando obter mais detalhes, e de forma interativa (e em tempo real)
mudar os dados que você vê ou até como eles são processados.
E como é entendida a visualização no contexto de Big Data? Estudos

mostram que o cérebro processa imagens 60 mil vezes mais rápido do que
texto. A etapa final no seu fluxo de trabalho para análise em Big Data, a
visualização de dados analíticos é uma representação visual dos conhecimentos
adquiridos. Em alguns softwares, a sua visualização está ligada à sua análise,
portanto, a qualquer tempo alterações de dados, são incorporadas a sua
visualização que será atualizada automaticamente com os resultados mais
novos.
A visualização de dados está por toda parte. Desde a criação de uma

representação visual com pontos de dados para impressionar potenciais
investidores, ao relatório sobre os progressos de um determinado projeto, ou
até mesmo a visualização de conceitos para segmentos de clientes, a
visualização de dados é uma ferramenta valiosa e aparece no mercado em uma
variedade de configurações.
As interfaces com os usuários são as ferramentas de visualização que

apresentam as informações de uma maneira compreensível aos usuários. Estas
podem ser dashboards (fornecem uma visão abrangente e amigável dos
indicadores chaves de desempenho e suas tendências e exceções), cubo
multidimensional de dados e, até mesmo, realidade virtual.
Os Dashboard e Scorecards fornecem displays visuais de informações

importantes que são consolidadas e dispostas em uma única tela. Desta forma a
informação pode ser digerida em um único olhar e facilmente explorada. Os
painéis permitem uma exibição visual que é utilizada para monitorar o
desempenho operacional. Os scorecards trazem uma exibição visual que é
utilizada para traçar o progresso em relação às metas e objetivos estratégicos e
táticos.
No dashboard é possível termos um conjunto ou um grupo de visões

analíticas relacionado com tabelas de indicadores, relatórios, planilhas, gráficos e
demais componentes de análise de informação. É uma coleção de vários itens
podendo ser composto por várias páginas ou abas, contendo diversas análises. O
essencial para obter um excelente dashboard não está apenas na exposição dos
dados, mas em fornecer ao usuário um elevado nível de interação. Abaixo um
exemplo de dashboard.
Análise exploratória de dados (AED)
Em estatística, análise exploratória de dados (AED) é uma abordagem para

analisar conjuntos de dados visando resumir as suas principais características,
muitas vezes com métodos visuais. Um modelo estatístico pode ser usado ou
não, mas principalmente AED serve para observados o que os dados podem nos

dizer para além da modelagem formal ou hipótese em testes. Análise

exploratória de dados foi promovida por John Tukey para incentivar os
estatísticos a explorar os dados e, eventualmente, formular hipóteses que
poderiam levar a nova coleta de dados e experimentos. AED é diferente de
análise de dados inicial (ADI), que se concentra mais estreitamente na
verificação de suposições necessárias para o modelo e as hipóteses, fazendo
manipulação de valores faltantes e transformações de variáveis conforme
necessário. AED abrange IDA.
Segundo Tukey, os objetivos da AED são os seguintes:
1. Sugerir hipóteses sobre as causas dos fenômenos observados.
2. Avaliar os pressupostos sobre os quais a inferência estatística será

baseada.
3. Apoiar a seleção de ferramentas e técnicas estatísticas adequadas.
4. Fornecer uma base para uma futura coleta de dados através de

pesquisas ou experimentos.
Agora vamos passar a analisar um conceito de processamento analítico on-

line-OLAP.
OLAP - On-Line Analitical Processing
O termo On-Line Analitical Processing – OLAP foi proposto por E.F. Codd, o
pai do modelo relacional. O modelo relacional põe os dados em tabelas,
enquanto o OLAP usa a representação de arrays multidimensionais. Essa
representação de dados já existia previamente na estatística e em outras áreas.
Existe um grande número de operações de análise de dados e exploração de
dados que são facilitadas como esse modelo de representação. Vamos entender
o conceito por trás desse modelo.
3. Conceitos básicos
Começamos tentando responder a uma pergunta básica: O que é OLAP?
Trata-se de um processamento de dados dedicado ao suporte a decisão. Essa
análise é feita por meio da visualização de dados agregados ao longo de várias
dimensões analíticas do modelo de dados dimensional (ex.: tempo, espaço,
categoria de produto, quantidade vendida, preço).
Esse processamento é feito sobre dados armazenados em Banco de Dados

especializadas. Eles seguem um modelo lógico de dados multidimensional e são
chamados de Data Warehouse, Data Mart ou BD multidimensionais. Falamos

sobre eles na aula anterior. Sabemos inclusive que os dados são estruturados de
forma hierarquizada em diferentes níveis de granularidade.
Outra definição possível para OLAP seria um recurso que permite

manipular e analisar grandes volumes de dados sobe múltiplas
perspectivas. Ou ainda, um software que permite ao usuário interagir com um
grande banco de dados on-line (data warehouse) e solicitar e receber
praticamente qualquer relatório no formato desejado.
Partindo dos três conceitos vistos até agora, passaremos para uma
sistematização do conhecimento dentro do assunto. Os conceitos de OLAP, mais
precisamente quando tratamos de questões para concursos, podem ser
classificados da seguinte forma: 1. OLAP x OLTP, 2. Operações OLAP e 3.
Taxonomias de servidores OLAP.
4. OLAP x OLTP
On-Line Analytical Processing (OLAP) é muito diferente do tradicional On-
Line Transaction Processing (OLTP). Quando utilizamos OLTP, o foco é sobre as
transações individuais. Considere, por exemplo, um sistema OLTP simples usado
por um vendedor de livros para manter a par dos livros em estoque. Quando
uma cópia de um determinado livro B é vendida, o sistema diminui o número
que mostra quantas cópias de B estão em estoque.
Da mesma forma, o número é aumenta quando mais cópias são entregues

a partir do editor. O sistema só mantém o controle dos dados mais atual, isto é,
o que está atualmente no estoque. Detalhes sobre vendas individuais não são
armazenados em um formato fácil de analisar.
O varejista pode até saber quem é o cliente, mas esta informação não é
mantida com a finalidade de análise posterior. O sistema armazena suas
informações em um banco de dados relacional que é normalizada para evitar
anomalias de atualização. Este tipo de sistema é conhecido como OLTP. Ele é
otimizado para recuperação e/ou atualização de uma pequena quantidade de
tuplas.
Em contraste, um sistema OLAP para o varejista de livros mantém o

controle de cada venda individual. Isso também inclui informações específicas
sobre a venda, como a cidade onde a venda ocorreu, a data da venda, o
vendedor que vendeu o livro, e informações sobre o banco de dados
multidimensional.
Ele é usado para o armazenamento de tais dados. Desta forma é mais fácil
achar, por exemplo, o livro de receitas mais vendido e o número médio de livros
infantis vendidos antes de uma operação de vendas. O OLAP geralmente não
apaga nem atualiza seus dados; apenas adições de novos dados ocorrerão no

sistema periodicamente. O OLAP é assim otimizado para recuperar (e sumarizar)

grandes quantidades de dados.
A comparação entre OLAP e OLTP passa por diversos critérios individuais.

Cada autor valoriza critérios diferentes, ou seja, se você observar algumas
características são comparadas em um livro e não em outro. Vamos começar
exibindo uma primeira tabela que faz algumas distinções entre os dois modelos:
A ideia fundamental por trás da programação de matriz ou array é de que

as operações se aplicam de uma vez para todo um conjunto de valores. Isto o
torna um modelo de programação de alto nível, uma vez que permite ao
programador pensar e operar sobre os agregados inteiros de dados, sem ter de
recorrer às linhas explícitas de operações escalares individuais.
A base da programação por array e do seu pensamento é encontrar e

explorar as propriedades de dados onde os elementos individuais são
semelhantes e/ou adjacente. Ao contrário da orientação a objetos que
implicitamente quebra de dados para suas partes constituintes (ou quantidades
escalares), a orientação serial olha para um grupo de dados e aplica um
tratamento uniforme.
A comparação continua com outros autores. Carlos Barbieri faz uso da

seguinte lista em seu livro:

Resumindo quando pensamos em OLTP temos as seguintes características:

Ele é usado para acesso à dados em tempo real, baseado em transação, os
dados podem existir em mais do que uma tabela. Eles são otimizados para
transações mais rápidas e incluem operações de inserir, atualizar e excluir. Não
são construídos para a execução de consultas complexas.
Bancos de dados de sistemas Line-of-Business (LOB) e Enterprise-

Resource-Planning (ERP) usam este modelo. A ferramenta da Microsoft que
gerencia este modelo é o SQL Server Management Studio (SSMS). Segue as
regras de normalização de banco de dados (DB) e usa banco de dados
relacional. Armazena dados da chave. Usa menos índices e mais junção. E faz
consultas de várias tabelas.
Quando nosso foco é OLAP temos: O uso de dados on-line ou históricos.

Usado para análise e navegação sobre os dados. Os dados podem existir em
mais do que uma tabela. Otimizado para desempenho analítico dos dados. Banco
de dados apenas de leitura. Construído para executar consultas complexas.
Bancos de dados analíticos, como Cognos, a Business Objects, e assim por
diante utilizam este modelo.
A ferramenta da Microsoft para esse tipo de modelo é o SQL Server

Analysis Services (SSAS). Relaxa as regras de normalização de banco de dados.
Utiliza banco de dados relacional ou multidimensional. Armazenam dados
agregados em relação à chave. Comparado com OLTP usa relativamente mais
índices e menos junção. Consulta pode ser executada em menos tabelas.
5. Operações OLAP
Passamos agora para as operações OLAP. Conhecida também como
funcionalidades. Aqui estão as funções que podem ser aplicadas sobre os dados
disponíveis nos cubos ou nos DW. Antes de tratarmos das funções vamos
relembrar o conceito de granularidade.
A granularidade diz respeito ao nível de detalhe ou de resumo nas unidades

de dados no DW. Quanto maior o nível de detalhes, menor o nível de
granularidade. O nível de granularidade afeta diretamente o volume de dados
armazenado no DW e, ao mesmo tempo, o tipo de consulta que pode ser
respondida.
OLAP oferece recursos de modelagem analítica, incluindo um mecanismo de

cálculo para desvio padrão, variância, entre outros; e processamento de
medidas em múltiplas dimensões. Os recursos também permitem gerar
sumarizações, agregações e hierarquias em cada nível de granularidade e em
cada cruzamento de dimensão. Ele ainda suporta modelos funcionais para
previsão, análise de tendências e análise estatística.
Neste contexto, um motor OLAP é uma ferramenta poderosa a análise de

dados. Que tal darmos uma olhada nas operações de OLAP? Certamente você já
ouviu falar de “Drill Down”, “Drill up”, “Roll up”, “Drill across”, “Pivot”, “Slice and
Dice”. Pois bem, que tal detalhar cada uma delas?
Em modelos multidimensionais, como próprio nome sugere, os dados são

organizados em múltiplas dimensões. Cada uma delas contém múltiplos níveis
de abstração. Esses níveis são, ainda, definidos pelo conceito de hierarquia.
Essa organização provê ao usuário uma flexibilidade para observar os dados a
partir de diferentes perspectivas e em diferentes níveis de detalhe.
Graficamente, esses modelos podem ser representados por meio de um

cubo. As operações sobre um cubo de dados nos permitem materializar
diferentes perspectivas (também conhecidas como visões), permitem consultas
e análises interativas sobre dados armazenados. Vamos, então, entender as
peculiaridades de cada uma dessas operações de OLAP.
Roll-up: também conhecida como drill-up, aplica uma agregação sobre o

cubo de dados. Ou ainda, aumentar o nível de granularidade dentro de uma
dimensão, reduzindo o detalhamento da informação. É, basicamente, subir na
hierarquia.
A figura abaixo, retirada do livro Data Mining: Concepts and Techniques,

mostra o resultado da operação de roll-up aplicada no cubo central subindo na
hierarquia de location. Basicamente, essa hierarquia é definida na seguinte
ordem: street < city < province_or_state < country. Essa agregação mostra
uma ascensão na hierarquia de location do nível de city para o nível de country.
Drill-down: É o inverso da operação de roll-up. É uma forma de navegar

de um dado com menor nível de detalhe para um dado com maior nível de
detalhe. Essa operação pode ser realizada tanto descendo em uma hierarquia de

uma dimensão quanto introduzindo dimensões adicionais. A figura abaixo exibe

o resultado de uma operação de drill-down sobre o cubo central, basicamente,
descendo sobre a hierarquia de tempo (day < month < quater < year). A
operação desce do nível de semestre (quater) para mês (month).
Outra forma de executar o drill-down seria adicionando uma nova dimensão

ao cubo. Por exemplo, imagine, a partir do cubo central, uma operação de drill-
down que introduz uma dimensão adicional. Por exemplo,
grupo_de_consumidores.
Slice and dice: A operação de slice executa uma seleção sobre uma das
dimensões de um determinado cubo, resultando em um subcubo. A figura
mostra um exemplo da operação de slice que seleciona as vendas por cidade em
um determinado semestre (nestre caso, quarter = Q1).
A operação de dice define um “subcubo” através de umaseleção sobre duas

ou mais dimensões. A figura também mostra uma operação de dice que envolve
três dimensões seguindo os seguintes critérios (location = “Toronto” ou
“Vancouver” || time = “Q1” ou “Q2” || item = “home entertainment” ou
“computer”).
Pivot: Também conhecida como rotate ou rotação, é uma operação de

visualização que rotaciona os eixos de um determinado cubo, provendo uma
visão alternativa dos dados. A figura mostra uma operação de pivot sobre o
resultado da operação de slice. Neste caso, observamos uma rotação em duas
dimensões. Contudo o mesmo pode ser feito, também, em um cubo 3-D.

Até aqui vimos as mais simples operações de OLAP, que podem, inclusive,
ser consideradas operações básicas. Contudo, ainda não tratamos das famosas
Drill-across e Drill-through. Vamos agora definir cada um deles:
Sobre a operação de drill-across encontramos na literatura uma

divergência entre os principais autores. Vejam algumas definições
abaixo:
Drill-across: Executa uma consulta envolvendo mais de uma tabela fato!

Essa operação exige que os dois cubos tenham pelo menos uma das dimensões
em comum. A ideia é você conseguir consultar as múltiplas tabelas fato e colocar
o resultado em um único data set. Esta é a visão de Kimball (você pode ver um
exemplo aqui).
Para entender como efetuar essa operação, que tal mostrarmos um

exemplo prático? Imagine que uma determinada livraria tenha duas formas de
venda de produtos: nas suas lojas físicas ou pela Internet. Para cada um desses
processos de venda temos um cubo. No primeiro caso o cubo é montado com as
hierarquias de livros, tempo e localização geográfica. Na internet, não existe a
dimensão geográfica. Desta forma, esta foi substituída pela dimensão cliente.
Suponha que um gerente deseja fazer uma consulta para saber qual livro
foi o mais vendido nos anos de 2008 e 2009. Para fazer o drill-across, nós
atendemos à primeira premissa segundo Kimball: trata-se de uma operação
sobre dois cubos. Os dados nos dois cubos são combinados nas dimensões
comuns aos mesmos.
Nesse caso, livros e tempo. O analista vai, então, utilizar uma medida
derivada para somar as vendas dos dois cubos e dessa forma obter o livro com
maior quantidade de vendas. Veja que o drill-across abre um novo caminho para
que você possa analisar os dados. A figura abaixo ilustra esse exemplo:
Drill-across: Significa mudar de uma classificação em uma dimensão para

outra em uma dimensão diferente.

Drill-across: É uma técnica similar ao drill-down. A diferença é que

o drilling ser feito horizontalmente, ao invés de verticalmente. Por exemplo,
depois de inicialmente exibir o resultado das vendas anuais, o drill-across pode
ser usado para exibir as vendas em cada mês.
Dentre as definições acima eu ficaria com a primeira. Contudo acho

que é importante ver as demais para ter um entendimento mais amplo a
respeito do assunto. Vamos agora tratar de drill-through.
Drill-through: Essa operação pode se utilizar das facilidades de SQL para,

a partir do cubo de dados, penetrar (drill through) até as tabelas relacionais
de back-end. Ela visa o entendimento das informações (registros) a partir dos
quais o cubo é derivado. Assim, permite a movimentação de um dado, em um
determinado nível do cubo para dados de nível operacional. Pode ser usado, por
exemplo, se você está tentando determinar a razão de um ponto fora da curva
(outlier) dentro do cubo de dados.
Drill-Through: As tabelas de drill-through permitem que você exiba, em

tempo de consulta, os detalhes dos dados não sumarizados a partir dos quais
uma célula de uma tabela ou uma seleção de células é sumarizada. A capacidade
de drill-through permite as empresas acesso aos dados que não estão
armazenados no servidor OLAP, fazendo-as acessíveis para os usuários finais
das aplicações OLAP. Esses dados podem vir tanto do DW quanto das bases
transacionais.
Drill-Through to Detail Level: Permite uma transição suave de uma base

multidimensional e agregada para o nível de detalhamento de registro nas fontes
de dados do repositório de DW.
Vejam que, ao contrário das definições de drill-across que divergem

entre si, as definições de drill-through são complementares. O objetivo,
nesse caso, é mergulhar na hierarquia dos dados para observa-los no
maior nível de detalhamento, chegando, às vezes, a consultar as bases
de dados transacionais que deram origem aos dados agregados do DW.
Além das definições de drill-across e drill-throught vistas acima, existe

outra bastante difundida na Internet, esta é uma definição equivocada, mas
utilizada por algumas bancas, como a FCC. (Espero que isso mude um dia!)
Drill-Across: ocorre quando o usuário pula um nível intermediário dentro

de uma mesma dimensão. Por exemplo, a dimensão tempo é composta por ano,
semestre, trimestre, mês e dia. A operação drill-across é executada quando o
usuário passa de ano direto para trimestre ou mês. Por essa definição podemos
representar a operação de drill-across conforme a figura abaixo:

Drill-Throught: ocorre quando o usuário passa de uma informação contida

em uma dimensão para outra. Por exemplo, inicia na dimensão do tempo e no
próximo passo analisa a informação por região. Mais uma vez, podemos
visualizar essa definição no cubo abaixo.
Até aqui falamos das principais operações de OLAP, outras que às vezes
aparecem na literatura são listadas abaixo com suas respectivas definições:
Drill-within: É a passagem de uma classificação para outra classificação

diferente dentro da mesma dimensão.
Para entendermos um pouco melhor que os autores quiseram dizer com

isso, precisamos voltar ao conceito de hierarquia e classificação. Em uma
determinada dimensão é possível que exista diferentes classificações. Vamos
pensar em um exemplo de produto. Produto pode ter uma classificação grupo de
produto que pode ser dividido em categorias e essas por sua vez divididas em
setores.
Veja que essa é uma classificação de produto e possui uma hierarquia

dentro dela. Contudo a dimensão produto pode ter outras classificações como,
por exemplo, marca (Brand), VideoSystem e AudioSistem. A operação de drill-
within é basicamente passar de uma classificação para outra dentro da mesma
dimensão. Veja a figura a seguir:

Rank: Ordena os membros de uma dimensão de acordo com algum

critério. Essa operação é basicamente cria um ranking os n maiores
ou n menores itens em uma lista, é possível ainda calcular as médias móveis, o
crescimento dos índices, a taxa de retorno interno, depreciação e funções
estatísticas. Os resultados dessas operações são tipicamente visualizados em
uma forma de tabela cruzada (cross-tabular).
Nest-unnest: Redução das dimensões.
Slipt: Planificação das faces do cubo
Push/Pull: Junção de valores
Algumas operações podem ser efetuadas entre cubos e que são baseadas
na teoria dos conjuntos, são elas: Junção, União, Intersecção e Diferença.
Vejamos o exemplo da operação cross-join (produto cartesiano) abaixo:
Cross-join – É usado para gerar um produto cartesiano entre os conjuntos

passados como parâmetro.
Vejamos uma questão para confirmarmos seu entendimento a respeito do

assunto:
19.Ano: 2017 Banca: FGV Órgão: Alerj Cargo: Analista de Tecnologia da

Informação Q. 41
Observe o seguinte relatório OLAP.

A alternativa que ilustra o resultado da operação Dice é:
Comentário: O DICE corta o cubo de dados em mais de uma dimensão. Ou, em

outras palavras, restringe o escopo de análise em duas dimensões distintas. Tal
fato pode ser observado na alternativa B, nela da dimensão localização é
reduzida apenas ao escopo do estado de São Paulo e a dimensão produto é
restrita apenas a óculos e camisa.
Vamos analisar todas as demais alternativas. A letra “A” apresenta uma
operação de SLICE, que corta o cubo restringindo os valores pela dimensão
localização quando o Estado for igual a Rio de Janeiro. Na alternativa C, não

temos condições de dizer qual operação OLAP foi executada para obtenção dessa
visão.
A alternativa D apresenta uma operação de ROLL-UP, agregando os valores das
quantidades e agrupando os tipos de produtos. Por fim, a alternativa E
apresenta a operação de PIVOT.
Gabarito: B.
6. Arquitetura de servidores OLAP

Logicamente, servidores OLAP apresentam aos usuários de negócio os
dados multidimensionais de um Data Mart ou de um Data Warehouse, sem a
preocupação de mostrar como e onde os dados são de fato armazenados.
Todavia, a arquitetura física e a implementação de servidores OLAP devem
considerar aspectos de armazenamento.
A implementação de um DW para processamento OLAP pode ser feita das

seguintes formas: ROLAP, MOLAP, HOLAP, DOLAP e WOLAP. Vamos agora
analisar as peculiaridades de cada uma dessas estruturas.
Os dados são transferidos das fontes e copiados dentro do servidor OLAP,

lá eles são organizados e preparados para prover dados de consulta de forma
rápida. Essa estrutura está dividida nos seguintes componentes:
Data Sources. São as fontes que provem dados para serem analisados.
Dependendo do produto OLAP pode ser um DW, um banco de dados legado,
uma coleção de spreadsheets, ou ainda, uma combinação de todos. A habilidade
do produto OLAP em trabalhar com várias fontes diferentes é importante.
OLAP Server. Considerado o back-end de um sistema OLAP. É ele que

faz todo o trabalho de processamento (dependendo do modelo do sistema), é
nele que os dados efetivamente acessados são armazenados. Diferentes
filosofias governam a arquitetura dos servidores. Em particular a grandes
características de um produto OLAP é se o servidor usa um banco de dados
multidimensional ou um banco de dados relacional para armazenar os dados.
OLAP Customer. São aqueles que fornecem aplicações de mineração de

dados, mas também suportam a geração de resultados (graphs, reports, etc.).
A figura abaixo mostra a arquitetura de sistemas OLAP, que variam

dependendo da forma como o armazenamento e o processamento de dados
ocorrem, mas geralmente podemos identificar três níveis de dados: as fontes de
dados, o servidor OLAP e a apresentação dos dados ou usuário interface.

Quanto maior a necessidades de cálculos para produzir um conjunto de

informação, maior será o tempo de resposta. Pedaços de informação que são
frequentemente acessados devem ser pré-agregados. São, portanto, pré-
calculados e armazenados como um novo dado dentro da base. Por exemplo:
Vendas por mês. Vamos agora analisar cada uma das categorias de servidores
OLAP.
MOLAP
O Multidimensional On-Line Analytical Processing ou MOLAP refere-se aos

servidores que usam um MDDB para armazenar dados. Estratégia pela qual são
usados gerenciadores de banco de dados proprietários, com características de
armazenamento especiais e ferramentas para tratamento dimensional de dados.
Esse modelo dispõe de propriedades especiais de armazenamento como

matrizes esparsas, operações com array e indexações de bitmap. Porém não
oferece toda a gama de recursos encontrada num SGBDR, como debug,
paralelismo, log, otimizadores e monitoração.
Exige a migração dos dados do SGBD relacional para o armazenamento

multidimensional e a sua constante atualização. Pode ser limitada na sua
capacidade máxima de armazenamento, mas por ser voltada exclusivamente
para essas aplicações pode apresentar, em tese, melhor desempenho do que as
alternativas relacionais.
Pode ser entendida como uma planilha multidimensional, e algumas

oferecem a opção de memória RAM-MD, permitindo a manipulação dos dados
diretamente em memória. No caso de MOLAP, tanto as estruturas básicas (maior
granularidade) quanto às estruturas agregadas/cubos são armazenadas nesse
formato.
Um conceito que faz parte dos modelos MOLAP é a explosão dos dados. É
difícil determinar condições para a explosão de dados, ou para prever se uma

configuração particular vai explodir. Uma abordagem que parece ajudar a

resolver o problema é a manipulação de dados esparsos dinamicamente.
Manipulação de dados esparsos de forma dinâmica permite que um banco de
dados analise seus padrões de armazenamento próprios e aperfeiçoe-os para
evitar a explosão de dados.
ROLAP
O termo ROLAP especifica que o servidor OLAP se baseia numa base de

dados relacional: Relational On-Line Analytical Processing. Os dados de origem
são inseridos em um banco de dados relacional, geralmente em um esquema
estrela ou esquema floco de neve, o que ajuda em tempos de recuperação mais
rápidos. O servidor fornece um modelo multidimensional dos dados, através de
consultas SQL otimizadas.
Um dos motivos para escolher pelo uso do ROLAP está no fato de RDBs
são uma tecnologia bem estabelecida que tem muitas oportunidades para
otimização. Suporta maior quantidade de dados que uma MDDB.
O Servidor ROLAP é um servidor intermediário que fica entra a base de

dados relacional de back-end e as ferramentas de front-end. Eles usam SGBDs
relacionais ou relacionais estendidos para gravar e gerenciar os dados do DW, e
um middleware OLAP para dar suporte às funcionalidades faltantes.
Nessa estratégia são usados os próprios sistemas de banco de dados

relacionais, com as tabelas sendo implementadas como estruturas relacionais
clássicas. Oferece todas as vantagens de um SGBDR, porém exige um projeto
cuidadoso do ponto de vista de desempenho, em que o excesso de tabelas
normalizadas poderá comprometer a performance das buscas.
É importante lembrar-se dos conceitos de esquema estrela e floco de neve

discutidos anteriormente. As tabelas básicas e os agregados (visões ou cubos)
são armazenados nesse formato. O modelo relacional poderá ser usado tanto
para desenhar o projeto físico do data warehouse, considerando a abordagem
top-down, em que o DW será construído primeiramente, a partir dos arquivos
fontes, quanto na abordagem de data marts integrados, em que os data marts,
na forma ROLAP são estruturados.
Resumindo os pontos positivos e negativos do uso da abordagem

relacional em sistemas OLAP:

Antes de falarmos sobre as outras classificações de servidores OLAP,

vejam na figura abaixo uma comparação entre os dois tipos de servidores:
MOLAP e ROLAP.
HOLAP e DOLAP
O Hybrid OLAP Server representa uma abordagem de uso misto das

duas estratégias anteriores, em que as estruturas relacionais são normalmente
utilizadas para os dados de menor granularidade e as estruturas dimensionais
nativas são dedicadas ao armazenamento de agregados (maior granularidade).
O Desktop Olap Server representa uma abordagem na qual as

estruturas dimensionais ou relacionais são transferidas do DW/DM para as
estações cliente. São armazenadas com o objetivo de facilitar o desempenho de
certas análises, minimizando o tráfego de informações entre o ambiente cliente
e o ambiente servidor.
7. Critérios de avaliação de produtos OLAP

Uma estrutura arquitetural era necessária dentro da qual as funções
poderiam aparecer e se tornariam parte dos produtos habituais do analista de

dados ou usuário final. Esta estrutura tornou-se uma medida significativa da

eficácia do produto para análise de dados multidimensional em si, e, na verdade,
representou o primeiro critério de avaliação de produtos de OLAP. Ela se baseia
em 12 regras de avalição que são listadas de descritas de forma sucinta a
seguir.
1. Visão conceitual multidimensional – Já falamos sobre a visão

multidimensional na aula anterior. De certa forma ela se aproxima da
perspectiva que um usuário ou analista tem sobre os dados. Sendo assim, temos
que nos preocupas em criamos um modelo com essa estrutura. Ela facilita a
execução de operação de Slice and Dice, Pivot and rotate tornando a
manipulação dos dados mais simples.
2. Transparência - OLAP deve ser fornecido dentro do contexto de uma

verdadeira arquitetura de sistemas aberta, permitindo que a ferramenta analítica
possa ser incorporada em qualquer necessidade do analista/usuário, sem afetar
negativamente a funcionalidade das ferramentas do host.
3. Acessibilidade - O sistema OLAP deve acessar apenas os dados

realmente necessários para realizar a análise solicitada e não tomar a "pia da
cozinha" abordagem comum que traz dados desnecessários.
4. Desempenho consistente na geração de relatórios - É imperativo

que o componente do servidor de ferramentas OLAP seja suficientemente
inteligente de tal forma que vários clientes possam ser conectados com o
mínimo de esforço e programação de integração.
5. Arquitetura cliente-servidor - A maioria dos dados que atualmente

exigem o processamento analítico on-line é armazenada em sistemas de
mainframe e eles são acessados através de computadores pessoais. Por
conseguinte, é obrigatório que os produtos OLAP sejam capazes de funcionar
num ambiente cliente-servidor. Para este fim, é imperativo que o componente
servidor das ferramentas OLAP seja suficientemente inteligente de tal forma que
vários clientes possam ser conectados com o mínimo esforço e programação de
integração.
6. Dimensionalidade genérica - Cada dimensão dos dados deve ser

equivalente em suas estruturas e capacidades operacionais. Capacidades
operacionais adicionais podem ser concedidas a dimensões selecionadas, mas
desde que as dimensões sejam simétricas, uma determinada função adicional
pode ser concedida a qualquer dimensão. A estrutura básica de dados, fórmulas
e formatos de relatórios não deve ser inclinada para uma dimensão específica
dos dados.
7. Manuseio dinâmico de matriz esparsa - Esta é disponibilizada

através de uma tecnologia de servidor poderosa que pode ser intimamente
ligada com o banco de dados da empresa. Ela pode ajustar o seu esquema físico
para o máximo desempenho com base na densidade dos dados de entrada da

empresa e na distribuição real dos valores dos dados.
8. Suporte a multiusuários - Esta função é fornecida pelo produto de

software, mas pode ser limitada pelo número de clientes que podem ser
suportados pela plataforma de hardware do servidor. Além disso, ela permite o
acesso multiusuário para um modelo analítico comum e controla o acesso e
permissões para o nível de células individuais através de uma "concessão" e
"revogar" de esquemas baseada nos menus.
9. Operações irrestritas de cruzamento de dimensões - Quaisquer

duas (ou mais) células, independentemente da dimensão em que aparecem
dentro de um determinado modelo de análise, podem ser utilizadas em qualquer
fórmula. As fórmulas não estão restritas a uma dimensão por vez. Qualquer
termo em uma fórmula pode ser ainda modificado através da inclusão de
atributos a partir de qualquer dimensão. Em outras palavras, qualquer célula de
dados ou intervalo no modelo de dados pode ser acessada por meio de cálculos
em qualquer momento.
10. Manipulação de dados intuitiva - A maior parte de toda a criação do

modelo, manipulação e tarefas de animação ocorrem por meio de cliques no
mouse diretamente associados com os dados em análise.
11. Relatório flexível – relata que capacidade vai significativamente além

dos front-ends disponíveis para os produtos de RDBMS comerciais. Consultas e
relatórios que normalmente requerem SQL significativos e sofisticados (e esforço
de codificação processual talvez associado) podem ser criados facilmente com e
processados significativamente mais rápido. Analistas são capazes de apresentar
dados em qualquer formato, de acordo com qualquer trajetória de consolidação,
abrangendo qualquer número de dimensões de dados.
12. Dimensões e agregação de níveis ilimitados - Permite a

especificação e manipulação de um número ilimitado de dimensões de dados
dentro de um determinado modelo.

Questões Comentadas
Apresentamos abaixo um conjunto de questões sobre o assunto que
aprendemos nesta aula. Esperamos que elas ajudem na fixação da matéria.
Qualquer dúvida, estamos às ordens!
20.Ano: 2017 Banca: CESPE Órgão: SEDF Cargo: Analista de gestão

educacional – Especialidade: tecnologia da informação Questão: 119
Com relação a data mining e data warehouse, julgue os itens que se seguem.
[119] Agrupar registros em grupos, de modo que os registros em um grupo
sejam semelhantes entre si e diferentes dos registros em outros grupos é uma
maneira de descrever conhecimento descoberto durante processos de mineração
de dados.
Comentário: Se analisarmos a descrição acima temos uma definição da tarefa
de agrupamento ou clustering.
A clusterização é a classificação não-supervisionada de dados, formando
agrupamentos ou clusters. Ela representa uma das principais etapas do processo
de análise de dados denominada análise de clusters. A análise de clusters
envolve, portanto, a organização de um conjunto de padrões (usualmente
representados na forma de vetores de atributos ou pontos em um espaço
multidimensional – espaço de atributos) em clusters, de acordo com alguma
medida de similaridade. De forma intuitiva, padrões pertencentes a um dado
cluster devem ser mais “similares” entre si do que em relação a padrões
pertencentes a outros clusters.
Vejam, portanto, que a alternativa está correta.
Gabarito: C.
21. Ano: 2013 Banca: CETRO Órgão: ANVISA Cargo: Analista

Administrativo - Área 5
Assinale a alternativa que apresenta um recurso essencialmente OLAP.
A) ROLLUP.
B) GROUP BY.
C) OLAPUP.
D) HAVING.
E) SELECT.
Comentário: Vajam que a questão quer saber nosso conhecimento a respeito
das operações OLAP. Neste caso, apenas uma das alternativas apresenta o nome

de uma operação. Essa operação navega na hierarquia de uma dimensão

permitindo a agregação dos dados e uma visualização num nível de
granularidade maior e menos detalhado dos dados. A operação de ROLLUP,
encontra-se na alternativa A e é a nossa resposta.
Gabarito: A.
22. Ano: 2016 Banca: CESPE Órgão: TRT-08 Cargo: Analista de TI -

QUESTÃO 10
Acerca de data mining, assinale a opção correta.
A A fase de preparação para implementação de um projeto de data mining
consiste, entre outras tarefas, em coletar os dados que serão garimpados, que
devem estar exclusivamente em um data warehouse interno da empresa.
B As redes neurais são um recurso matemático/computacional usado na
aplicação de técnicas estatísticas nos processos de data mining e consistem em
utilizar uma massa de dados para criar e organizar regras de classificação e
decisão em formato de diagrama de árvore, que vão classificar seu
comportamento ou estimar resultados futuros.
C As aplicações de data mining utilizam diversas técnicas de natureza estatística,
como a análise de conglomerados (cluster analysis), que tem como objetivo
agrupar, em diferentes conjuntos de dados, os elementos identificados como
semelhantes entre si, com base nas características analisadas.
D As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo
de previsão de um conjunto de informações, analisando-se seus valores ao longo
de determinado período. Nesse caso, para se obter uma previsão mais precisa,
devem ser descartadas eventuais sazonalidades no conjunto de informações.
E Os processos de data mining e OLAP têm os mesmos objetivos: trabalhar os
dados existentes no data warehouse e realizar inferências, buscando reconhecer
correlações não explícitas nos dados do data warehouse.
Comentário: Teceremos comentários sobre cada uma das alternativas acima.
A Sabemos que a mineração de dados pode acontecer sobre qualquer tipo de
arquivo de dados. Lembrem-se a possibilidade de textmining que não tem
necessidade de dados armazenados em um DW. Alternativa errada!
B Na alternativa B existe uma avalanche de conceitos misturados: redes neurais,
que fazem parte do conjunto de assuntos relacionados a inteligência artificial;
técnicas estatística e arvore de decisão. Cada técnica de mineração é usada com
um propósito especifico, por exemplo, a classificação vai permitir que você
classifique novas entradas de acordo com um conjunto pré-determinado de
saídas, que foram construídos em uma etapa anterior do processo. A questão
peca por misturar vários conceitos.
C Criar clusters, ou seja, agrupar subconjuntos de dados de acordo com alguma
semelhança entre eles. Essa é a nossa resposta.
D Uma serie temporal deve considerar a sazonalidade, pela lei da oferta e
demanda, se você percebe que as vendas aumentam no Natal, você pode
aumentar o preço ou o estoque. O fato de desconsiderar a sazonalidade torna a

questão incorreta.
E Os processos de OLAP e Data mining são diferentes em relação a
complexidade e resultados esperados. OLAP é uma ferramenta de consulta em
bases de dados analíticas, ele visa extrair informações por meio de queries e
utilizando as operações sobre os cubos de dados, mas não aplicam algoritmos
específicos neste processo. Data Mining é bem mais complexo que OLAP, ele
busca padrões em grandes volumes de dados por meio de técnicas estatísticas e
de algoritmos de inteligência artificial, por exemplo. Sendo assim não é possível
comparar de forma tão simplista quando a alternativa tentou fazer, por isso, a
letra E está incorreta.
Gabarito: C
23. Ano: 2016 Banca: CESPE Órgão: TCE-SC Cargo: Auditor de TI

Julgue os itens subsecutivos, acerca de mineração de dados.
98 Para a realização de prognósticos por meio de técnicas de mineração de
dados, parte-se de uma série de valores existentes obtidos de dados históricos
bem como de suposições controladas a respeito das condições futuras, para
prever outros valores e situações que ocorrerão e, assim, planejar e preparar as
ações organizacionais.
99 As aglomerações, tipos de informação obtidos por meio da mineração de
dados, caracterizam-se por se ligarem a um único e específico evento, em torno
do qual ocorrem várias ações, com produção sistêmica de informações
gerenciais que apoiarão uma nova ocorrência do mesmo tipo de evento.
Comentário: A alternativa 98 trata dos aspectos de previsão relacionados a
mineração de dados. Basicamente você deve escolher um algoritmo,
parametrizar, utilizar dados históricos das bases de dados como entrada e tentar
prever o futuro. O texto da questão está correto.
Aglomerações ou clusters são grupos de indivíduos de uma amostra que
possuem características semelhantes. Geralmente são definidos intervalos de
valores, para cada intervalo temos um clusters, agrupamento ou aglomeração.
Essa ideia de eventos em série relacionados a um evento inicial está relacionada
a técnicas de associação. Questão, portanto, encontra-se incorreta.
Gabarito: C E
24.Ano: 2016 Banca: FCC Órgão: TRT-MT Cargo: Analista de TI – Questão

34
Na abordagem Star Schema, usada para modelar data warehouses, os fatos são
representados na tabela de fatos, que normalmente
(A) é única em um diagrama e ocupa a posição central.
(B) está ligada com cardinalidade n:m às tabelas de dimensão.

(C) está ligada às tabelas de dimensão, que se relacionam entre si com
cardinalidade 1:n.
(D) tem chave primária formada independente das chaves estrangeiras das
tabelas de dimensão.
(E) está ligada a outras tabelas de fatos em um layout em forma de estrela.
Comentário: A última questão da nossa prova de hoje trata da ementa vista
pelo curso de BI. O examinador testa seus conhecimentos sobre modelagem
dimensional, mais especificamente, sobre o modelo star schema. O modelo em
questão é composto por uma tabela fato e um conjunto de tabelas dimensão.
Em outras palavras, cada processo de negócio é representado por um modelo
dimensional que consiste em uma tabela fato contendo medições numéricas do
evento e, cercada por um conjunto de tabelas dimensão que contêm o contexto
no momento em que ocorreu o evento. Vejam que ela ocupa uma posição
central no modelo, o que leva a nossa resposta, na alternativa A.
Gabarito: A
25. ESAF - 2008 - Cargo: ANALISTA DE FINANÇAS E CONTROLE -

Secretaria do Tesouro Nacional - STN - TECNOLOGIA DA
INFORMAÇÃO/ INFRA-ESTRUTURA DE TI
13- Com respeito à mineração de dados, assinale a opção correta, após avaliar
as seguintes afirmações:
I. A mineração de dados pode ser usada em conjunto com um datawarehouse,
para auxiliar tomada de decisão.
II. A mineração de dados permite a descoberta de regras de associação entre
hierarquias.
III. A mineração de dados compreende todo o processo de descoberta de
conhecimento em bancos de dados.
a) Apenas as afirmações I e II são corretas.
b) Apenas as afirmações I e III são corretas.
c) Apenas as afirmações II e III são corretas.
d) As afirmações I, II e III são corretas.
e) As afirmações I, II e III são incorretas.
Comentários: Vamos comentar cada uma das alternativas acima
I. Exatamente, ambas fazem parte do processo de descoberta de conhecimento.
Em um primeiro momento é formado o Data Warehouse com a base de dados
que agrega informações de diferentes fontes. Após passar por uma limpeza
(para retirar dados inconsistentes, ex.: uma data sem o ano 12/02) esses dados
são integrados de forma a compor um DW com informações de todos os setores

da organização. Num segundo momento o um algoritmo de mineração de dados

toma uma parte dos dados do DW e procura encontrar regras ou padrões úteis.
II. Verdadeiro. Uma das tarefas de Data Mining é a descoberta de regras de
associação entre dados. Outras tarefas que podemos listar são:
– Classificação
– Clustering
– Estimativa
– Previsão
– Agrupamento por afinidade
III. Na realidade é o oposto do que está dito na alternativa. A mineração de
dados que faz parte do processo de descoberta do conhecimento.
Para entender melhor, veja a figura abaixo:
Gabarito: A
26. ESAF 2013 – Secretária do Tesouro Nacional – Analista de

sistemas
8 - A Mineração de Dados requer uma adequação prévia dos dados através de
técnicas de pré-processamento. Entre elas estão as seguintes técnicas:
a) Agrupamento. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Recursos pontuais. Polarização. Redução de variáveis.
b) Agregação. Classificação. Redução de faixas de valores. Seleção de
subconjuntos de recursos. Redução de recursos. Terceirização e discretização.
Transformação de variáveis.

c) Agrupamento. Classificação. Redução de dimensionalidade. Seleção de

subconjuntos de usuários. Criação de recursos. Binarização e discretização.
Transformação de conjuntos.
d) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de usuários. Criação de recursos. Polarização. Transformação de
conjuntos.
e) Agregação. Amostragem. Redução de dimensionalidade. Seleção de
subconjuntos de recursos. Criação de recursos. Binarização e discretização.
Transformação de variáveis.
Comentários: Essa questão não mede o grau conhecimento do candidato e sim
a sua capacidade de decorar uma lista, que cada dia cresce mais, de técnicas de
data mining, mas precisamente das técnicas de pré-processamento. A lista foi
retirada do livro do TAN. Veja abaixo a lista em inglês, uma tradução ao pé da
letra encontra-se na alternativa E, na mesma ordem apresentada.
Aggregation
Sampling
Dimensionality Reduction
Feature subset selection
Feature creation
Discretization and Binarization
Attribute Transformation
Gabarito: E
27. ESAF 2013 – Secretária do Tesouro Nacional – Analista de

sistemas
Uma técnica de classificação em Mineração de Dados é uma abordagem
sistemática para
a) construção de controles de ordenação a partir de um conjunto de acessos.
b) construção de modelos de classificação a partir de um conjunto de dados de
entrada.
c) construção de modelos de dados a partir de um conjunto de algoritmos.
d) construção de controles de ordenação independentes dos dados de entrada.
e) construção de modelos de sistemas de acesso a partir de um conjunto de
algoritmos.
Comentários: Essa questão trata de classificação, uma tarefa de data mining. A
classificação pode ser entendida como o processo de encontrar um conjunto de
modelos (funções) que descrevem e distinguem classes ou conceitos, com o
propósito de utilizar o modelo para predizer a classe de objetos que ainda não
foram classificados. Segundo o TAN, a definição também pode ser a tarefa de
aprender uma função alvo f que mapeie cada conjunto de atributos x para um
dos rótulos de classes y pré-determinados. Com a ajuda das duas definições

acima podemos chegar à resposta na letra B. Abaixo temos uma figura do livro
do TAN que apresenta graficamente a definição de classificação.
Gabarito: B
28. ESAF - 2013 - DNIT - Analista Administrativo - Tecnologia da

Informação
São regras de avaliação de produtos OLAP:
(a) Transferência ao usuário. Desempenho consistente na geração de relatórios.
Dimensionalidade cumulativa. Operações irrestritas com dimensões cruzadas.
(b) Visão conceitual multidimensional para restringir consultas. Transparência ao
usuário. Dimensionalidade genérica. Manipulação dedutiva dos dados.
(c) Visão conceitual multidimensional para formular consultas. Desempenho
consistente na geração de relatórios. Dimensionalidade genérica. Manipulação
intuitiva dos dados.
(d) Visão conceitual multidimensional para formular consultas. Dimensionalidade
genérica. Manipulação segmentada dos dados. Operações irrestritas com
dimensões alternadas.
(e) Extensão conceitual dos dados. Transparência ao dispositivo de acesso.
Manipulação intuitiva dos dados. Operações irrestritas com indicações cruzadas.
Comentários: Os produtos OLAP podem ser avaliados com o uso das regras de
avaliação citadas por Codd. Portanto, um bom produto OLAP deve possuir:
i) visão conceitual multidimensional;
ii) transparência;
iii) acessibilidade;
iv) desempenho consistente do relatório;
v) arquitetura cliente-servidor;
vi) dimensionalidade genérica;
vii) manuseio dinâmico da estrutura da matriz;
viii) apoioa multi-usuários;
ix) operações irrestritas de cruzamento de dimensões;
x) manipulação de dados intuitiva;
xi) relatório flexível;
xii) dimensões e agregação de níveis ilimitados.
Gabarito: C

29. ESAF - 2012 - CGU - Analista de Finanças e Controle - prova 3 -

Auditoria e Fiscalização - Geral .
São características gerais de conjuntos de dados:
(a) disposição, dispersão e renderização.
(b) dimensão, posicionamento e homogeneidade.
(c) compatibilidade, dispersão e interação.
(d) dimensão, dispersão e resolução.
(e) portabilidade, concentração e resolução.
Comentários: Questão retirada de TAN et. al (2009, p. 35), que destaca três
características aplicadas a muitos conjuntos de dados e que possuem um
impacto significativo sobre as técnicas de mineração de dados: dimensão,
dispersão e resolução.
A dimensão refere-se à quantidade de atributos de um conjunto de dados;
A resolução está relacionada à granularidade dos dados.
Um conjunto de dados é muito disperso quando para um atributo relevante, a
maioria dos valores é NULL ou um valor padrão, e esse conceito está relacionado
à dispersão.
Gabarito: D
30. ESAF - 2012 - Receita Federal - Analista Tributário da RF - Prova 2

- Área Informática
Um data mining inteligente descobre informações em data warehouses onde
consultas e relatórios não conseguem revela-las. Ferramentas dedata
mining encontram padrões em dados e podem até deduzir regras a partir deles.
Os métodos usados para identificar padrões em dados são:
(a) modelos simples, modelos intermediários e modelos complexos.
(b) modelos simples, modelos físicos e modelos integrados.
(c) modelos híbridos, modelos top-down e modelos bottom-up.
(d) modelos lógicos, modelos físicos e modelos interativos.
(e) modelos básicos, modelos genéricos e modelos complementares.
Comentários: De acordo com TURBAN são usados três métodos para identificar
padrões em dados:
Modelos simples (consultas baseadas em SQL, OLAP, raciocínio humano)
Modelos intermediários (regressão, árvores de decisão, agrupamento)
Modelos complexos (redes neurais, outra indução de regras)
Gabarito: A

Auditoria e Fiscalização - Geral
São aspectos motivadores da Mineração de Dados:
(a) Escalabilidade. Dimensionalidade moderada. Dados homogêneos.
Propriedade e centralização dos dados.
(b) Extensibilidade. Alta paridade. Dados complexos e heterogêneos.
Concorrência e distribuição dos dados.
(c) Escalabilidade. Alta dimensionalidade. Dados complexos e heterogêneos.
Propriedade e distribuição de dados.
(d) Escalabilidade. Dimensionalidade variável. Dados compatíveis e acoplados.
Adequação da distribuição de dados.
(e) Especialidade. Alta dimensionalidade de verificação. Dados complexos e
complementares. Propriedade e consistência de dados.
Comentários: A banca retirou os aspectos de TAN e todos os que foram listados
na assertiva C estão corretos. Um aspecto abordado no livro e não mencionado
na questão é o de “Análises não tradicionais”.
Gabarito: C

Classificação é
(a) a tarefa de atualizar uma função focal f que permeia cada conjunto de
variáveis x para um dos blocos de classes y discretos.
(b) o mapeamento de uma função objetivo f à qual são atribuídos
valores x fixados por categorias de rótulos de classes z pré-determinados.
(c) a função alvo f que mapeie cada classificação de atributos x para um dos
eixos de classes y pré-determinados.
(d) a tarefa de aprender uma função alvo f que mapeie cada conjunto de
atributos x para um dos rótulos de classes y pré-determinados.
(e) a tarefa de ordenar funções de mapeamento para cada categoria de
atributos x para um dos rótulos de variáveis y controladas.
Comentários: Como vimos ao longo da nossa aula a classificação é a tarefa de
aprendizado de uma função alvo f que mapeia cada atributo de um conjunto x
para um rótulo de classe predefinido y. Essa definição foi retirada do livro do
TAN que inclusive possui o arquivo em pdf do capitulo de classificação disponível
na web.
Gabarito: D


A Mineração de Dados é
(a) o processo de desenvolvimento de soluções automáticas de acesso a
informações úteis em depósitos de dados.
(b) a transformação automática de dados existentes em grandes depósitos de
dados em informações quantificáveis.
(c) a automação da recuperação de informações caracterizadas por registros
com grande quantidade de atributos.
(d) a descoberta de relações significativas entre dados e informações passíveis
de atualização automática.
(e) o processo de descoberta automática de informações úteis em grandes
depósitos de dados.
Comentários: Essa questão peca por falta de preciosismo do examinador.
Sabemos que o processo de mineração de dados requer supervisão. Ele não é
totalmente automático, embora várias etapas desse processo sejam
automatizáveis. Mas, se analisarmos cada uma das alternativas acima, podemos
observar que aquela que mais e aproxima de todas as definições que vimos até
aqui é a presente na alternativa E.
Gabarito: E
34. ESAF – CVM 2010 - Sistemas .

53- Mineração de Dados é
a) o processo de atualizar de maneira semiautomática grandes bancos de dados
para encontrar versões úteis.
b) o processo de analisar de maneira semiautomática grandes bancos de dados
para encontrar padrões úteis.
c) o processo de segmentar de maneira semiautomática bancos de dados
qualitativos e corrigir padrões de especificação.
d) o programa que depura de maneira automática bancos de dados corporativos
para mostrar padrões de análise.
e) o processo de automatizar a definição de bancos de dados de médio porte de
maior utilidade para os usuários externos de rotinas de mineração.
Comentários: Vejam que está questão, quando contrastada com a anterior, nos
leva a uma visão mais precisa do conceito de mineração de dados. Em ambos os
casos, o objetivo final é descobrir informações úteis, mas no caso desta questão
o examinador se preocupou em deixar claro que é um processo semiautomático.
Gabarito: B

35. ANO: 2015 BANCA: CESPE ÓRGÃO: MEC PROVA: TÉCNICO DE

NÍVEL SUPERIOR - ADMINISTRADOR DE DADOS
No que se refere a bancos de dados transacionais (OLTP) e a banco de dados
analíticos (OLAP), julgue os itens que se seguem.
[1] Em ambientes corporativos, o uso de ambientes OLTP visa eliminar ao
máximo a redundância de forma que a transação promova mudanças de estado
o mais pontualmente possível, ao passo que o uso de ambientes OLAP objetiva
prover uma visão dos dados orientados à análise com uma navegação rápida de
dados agregados.
[2] OLAP é uma interface com o usuário que pode se utilizar de diversos
modelos de armazenamento para apresentar as informações. As diversas formas
de armazenamento e acesso a dados permitem classificar OLAP em diferentes
categorias, como por exemplo, o ROLAP, em que os dados são armazenados de
forma relacional, e o MOLAP, em que os dados são armazenados em estruturas
multidimensionais.
[3] Diferentemente dos modelos OLTP fundamentados nas operações de álgebra
relacional, os servidores OLAP suportam um conjunto de operações, como por
exemplo, o drill-down, que implica examinar dados com maior nível de detalhe
dentro da hierarquia de cada dimensão do modelo multidimensional.
Comentários: Vejamos cada uma das alternativas.
[1] A primeira trata de uma das principais diferenças entre um sistema OLAP e
um sistema OLTP. O primeiro está relacionado com processamento analítico, o
segundo está preocupado com o contexto transacional e operacional. Vejam que
a alternativa está correta.
[2] Nesta segunda alternativa o contexto teórico é as arquiteturas OLAP. Neste
caso, é feita uma distinção entre ROLAP e MOLAP corretamente.
[3] Esse conjunto de operações é conhecido por operações OLAP. Trazem uma
capacidade de análise dos dados muito maior aos SGBDs. A alternativa está
correta.
Gabarito: C C C.
36. ANO: 2015 BANCA: CESPE ÓRGÃO: MEC PROVA: TÉCNICO DE

NÍVEL SUPERIOR - ANALISTA DE SISTEMAS
Com relação a bancos de dados transacionais e analíticos, julgue os seguintes
itens.
[1] As operações slice and dice dos sistemas OLAP permitem selecionar e
modificar a posição de uma informação, a troca de linhas por colunas e o giro do
cubo multidimensional. Entretanto, não é permitido combiná-las com as
operações drill down ou roll up.

[2] Nos sistemas OLAP, os usuários têm permissão para leitura, inserção,
modificação e exclusão dos dados armazenados, e podem analisá-los sob
diversos ângulos.
Comentários: Mais uma vez, vamos comentar cada uma das afirmações acima
e verificar se estão corretas.
[1] Dizer que não é possível combinar operações OLAP é um equívoco! Não
podemos fazer análises mais apuradas se não conseguimos compor as operações
dentro de uma mesma consulta. Sendo assim, a alternativa está incorreta.
[2] Sistemas OLAP tem a característica de serem não-voláteis. A consequência
disso é que os dados são carregados no DW ou na base de dados de análise e
não devem ser alterados. Desta forma, não há sentido algum os usuários
fazerem alterações sobre os dados armazenados. Eles podem sim, fazer análise
sob diversos ângulos. Mesmo assim, a alternativa continua incorreta.
Gabarito: E E.
37. ANO: 2015 BANCA: CESPE ÓRGÃO: MEC PROVA: GESTÃO -

GERENTE DE PROJETOS
Acerca dos conceitos de banco de dados transacionais (OLTP) e analíticos
(OLAP), julgue os itens que se seguem.
[1] O ROLAP, sistema que se baseia na manipulação dos dados armazenados na
base de dado relacional, apresenta a desvantagem de não lidar com grandes
quantidades de dados.
[2] Na pivotagem, que é uma agregação de sistemas OLAP, utiliza-se uma
tabulação cruzada bidimensional, como um pivô de duas dimensões.
Comentários: Vamos comentar cada uma das assertivas acima:
[1] O ROLAP armazena os dados numa base de dados relacional. No ROLAP
existe uma boa padronização das tecnologias de banco de dados. Podem
manipular grandes quantidades de dados. Pode ter as funcionalidades de uma
base de dados relacional e como acessa diretamente é mais fácil adicionar novas
dimensões. Os dados estão sempre disponíveis. Permite pedidos ad hoc
eficazmente.
A performance pode ser mais lenta e é limitada pelas funcionalidades SQL. Para
ter acesso aos dados visando realizar operações de drill down em tempo real é
necessário muito poder de processamento e, consequentemente, hardware caro.
O MOLAP armazena os dados num cubo multidimensional. O MOLAP permite
uma boa performance nas operações slicing and dicing, tendo um bom tempo de
resposta para consultas OLAP. Permite cálculos complexos. É limitado quanto a
quantidade de dados que se deseja manipular. Não existe uma padronização das
tecnologias de banco de dados. Realizar alterações como adicionar novas
dimensões é complicado devido à falta de flexibilidade. Não permite pedidos ad
hoc eficazes.
Vejam que pelo exposto nossa assertiva está incorreta.

[2] O termo dado para a movimentação de dados entre eixos é chamado de

pivotagem. Usando esta técnica, você pode reorganizar os seus dados para
revelar as relações que podem não ser aparente. Para muitas pessoas,
pivotagem é também conhecida como "dicing". Vejam, portanto, que a
alternativa está correta.
Gabarito: E C.
38. ANO: 2015 BANCA: CESPE ÓRGÃO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO – ANÁLISE DE INFORMAÇÕES.
No que concerne a data mining (mineração de dados) e big data, julgue os
seguintes itens.
[82] O uso prático de data mining envolve o emprego de processos,
ferramentas, técnicas e métodos oriundos da matemática, da estatística e da
computação, inclusive de inteligência artificial.
[83] Quem utiliza o data mining tem como objetivo descobrir, explorar ou
minerar relacionamentos, padrões e vínculos significativos presentes em grandes
massas documentais registradas em arquivos físicos (analógicos) e arquivos
lógicos (digitais).
[84] A finalidade do uso do data mining em uma organização é subsidiar a
produção de afirmações conclusivas acerca do padrão de comportamento exibido
por agentes de interesse dessa organização.
[85] No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing.
Comentários: Vamos analisar cada uma das assertivas acima a respeito de
mineração de dados.
[82] Se analisarmos qualquer definição formal de Data Mining, por exemplo:
“Mineração de dados, ou data mining, é o processo de análise de conjuntos de
dados que tem por objetivo a descoberta de padrões interessantes e que possam
representar informações úteis”.
Segundo a teoria Data Mining é uma mistura de diferentes disciplinas:
Estatística, Aprendizado de máquina e Banco de dados. Podemos então verificar
que os termos listados na questão se enquadram perfeitamente dentro do
contexto e das definições existentes. Portanto, alternativa correta.
[83] Vamos analisar mais uma definição de Data Mining para chegarmos a uma
conclusão definitiva a respeito desta questão. “A mineração de dados é um
campo interdisciplinar que reúne técnicas de aprendizado de máquina,
reconhecimento de padrões, estatísticas, banco de dados e visualização para
abordar a questão da extração de informações a partir de grandes bases de
dados”. Vejam que em todas as definições as análises são feitas sobre base de
dados digitais. Usar tecnologia para otimizar e ampliar o horizonte e descobrir
padrões ou informações relevantes. Sendo assim a alternativa está incorreta
pois afirma que é possível fazer análise em arquivos físicos (analógicos).
[84] A princípio você pode ser levado a acreditar que a questão está falsa, pois
Data Mining não vai produzir afirmações conclusivas. Veja, porém, que o

examinador usou a palavra “subsidiar” a produção. Esse é justamente a grande

característica que está descrita no detalhamento da última falácia acima.
Resposta da alternativa 84 é correta.
[85] Observem que o examinador colocou uma afirmação incorreta. Dizer que
não é possível usar DM para atividades ligadas a marketing. O caso mais clássico
conhecido é justamente o das “fraudas próximas das cervejas”. Uma das
maiores redes de varejo dos Estados Unidos descobriu em seu gigantesco
armazém de dados que a venda de fraldas descartáveis estava associada à de
cerveja. Em geral, os compradores eram homens, que saíam à noite para
comprar fraldas e aproveitavam para levar algumas latinhas para casa.
Gabarito: C E C E.
39. ANO: 2015 BANCA: CESPE ÓRGÃO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO - TECNOLOGIA DA INFORMAÇÃO
Julgue os itens subsequentes, a respeito de modelagem dimensional e análise de
requisitos para sistemas analíticos.
[1] Na análise dos dados de um sistema com o apoio de uma ferramenta OLAP,
quando uma informação passa de uma dimensão para outra, inexistindo
hierarquia entre elas, ocorre uma operação drill through.
[2] Entre os requisitos de análise de uma aplicação OLAP inclui-se a capacidade
de tratar dinamicamente a esparsidade das informações para restringir o
cruzamento dimensional de matrizes com células de valor zero.
Comentário: Vamos comentar cada uma das alternativas acima.
[1] Quando tratamos das definições de drill through encontramos na literatura
duas definições:
Drill Throught - ocorre quando o usuário passa de uma informação contida em
uma dimensão para uma outra. Por exemplo: Inicia na dimensão do tempo e no
próximo passo analisa a informação por região
Drill Throught – a operação de drill-through permite que você exiba, em tempo
de consulta, os detalhes dos dados não sumarizados. A partir dos quais uma
célula de uma tabela ou uma seleção de células é sumarizada. Permite as
empresas acesso aos dados que não estão armazenados no servidor OLAP,
fazendo-as acessíveis para os usuários finais das aplicações OLAP. Esses dados
podem vir tanto do DW quanto das bases transacionais.
Vejam que a alternativa apresenta em seu texto uma definição muito
semelhante a primeira definição. A ideia do drill throught é navegar pelo cubo
como ilustrado na figura abaixo. Alternativa correta.

[2] Primeiramente precisamos ter em mente as 12 regras para avaliar

ferramentas ou produtos OLAP.
Duas dessas regras aparecem dentro do texto apresentado pela questão o
tratamento dinâmico de matrizes esparsas (7) e operação de cruzamento
dimensional irrestrito (9).
Manipulação dinâmica de matriz esparsa - A estrutura física servidores
OLAP deve ter um tratamento ótimo para matriz esparsa. Uma matriz esparsa é
aquele em que nem todos os blocos, ou de células, na matriz contém dados.
Quando confrontado com uma matriz esparsa, o sistema deve ser capaz de
deduzir a distribuição dos dados e como armazená-la de forma mais
eficientemente. A estrutura de dados das ferramentas OLAP deve ser, portanto,
configurável.
Operações de cruzamento dimensional irrestrito – Na análise de dados
multidimensional, todas as dimensões são criadas e tratadas igualmente. Por
exemplo, um usuário pode executar as mesmas ações sobre as dimensões
tempo e produto. As ferramentas OLAP devem lidar com os cálculos nas
associações entre as dimensões e não exigir que o usuário defina como este
cálculo deve ser feito.
Vejam, portanto, que a ideia de tratar as matrizes esparsas é basicamente
reduzir a necessidade de processamento, evitando uma possível explosão dos
dados. Essa métrica de avaliação não visa em nenhum momento restringir os
cruzamentos entre as dimensões. Sendo assim podemos afirmar que a
alternativas está incorreta.
Gabarito: C E.
40. ANO: 2015 BANCA: FCC ÓRGÃO: TRT - 3ª REGIÃO (MG) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No modelo de dados multidimensional existem as operações suportadas pelas
ferramentas OLAP para permitir a análise dos dados. Com relação a estas
operações, considere os dados abaixo.

Para movimentar a visão dos dados ao longo de níveis hierárquicos da dimensão

tempo, saindo do que consta na Tabela 2 para o que consta na Tabela 1, um
analista de TI deve utilizar a operação OLAP
A drill throught.
B drill down.
C drill across.
D pivot.
E roll up.
Comentário: Teremos agora uma sequência de questões das mais variadas
bancas sobre as operações e OLAP. Vejam que esta questão tem uma casca de
banana. Ela pede para que você descreva o nome da operação que permite a
passagem da Tabela 2 para a Tabela 1. Veja que estamos subindo na
hierarquia da dimensão tempo, executando uma operação de roll-up, que se
encontra na alternativa E.
Gabarito: E.
41. ANO: 2014 BANCA: FCC ÓRGÃO: TCE-RS PROVA: AUDITOR

PÚBLICO EXTERNO - TÉCNICO EM PROCESSAMENTO DE DADOS
Os cubos de dados que armazenam os dados multidimensionais, podem ter
modelos de armazenamento que variam conforme a solução OLAP − On-Line
Analytical Processing utilizada. Nesse sentido considere os seguintes modelos:
I. Armazena os dados de detalhe (fatos) e as agregações em um modelo
multidimensional. Não faz uso da base de dados relacional para acessar os
dados dos cubos. Necessita de um processamento constante do cubo, embora
apresente melhor desempenho.
II. Lê os dados de detalhe (fatos) diretamente de fonte de dados relacional.
Caso existam agregações, estas serão geradas no modelo relacional. Pode ser
usado quando há problemas para armazenamento de uma estrutura
multidimensional.
III. Lê os dados de detalhe (fatos) diretamente da fonte de dados relacional.
Grava as agregações em formato multidimensional. Os dados que não possuem

agregações são consultados no modelo relacional. Mantém os benefícios do

modelo multidimensional sem ocupar tanto espaço em disco.
I, II e III referem-se, respectivamente, aos modelos
A HOLAP − MOLAP − ROLAP.
B MOLAP − ROLAP − HOLAP.
C HOLAP − DOLAP − ROLAP.
D DOLAP − HOLAP − MOLAP.
E ROLAP − HOLAP − DOLAP.
Comentário: Vamos aproveitar essa questão para comentar um pouco sobre os
modelos de arquitetura OLAP. O OLAP é uma interface com o usuário e não uma
forma de armazenamento de dados, porém se utiliza do armazenamento para
poder apresentar as informações. Os métodos de armazenamento são:
ROLAP (OLAP Relacional): Os dados são armazenados de forma relacional.
Vejam que o item II descreve um modelo de armazenamento ROLAP.
MOLAP (OLAP Multidimensional): Os dados são armazenados de forma
multidimensional. Essa descrição está associada ao item I da questão.
HOLAP (OLAP Híbrido): Uma combinação dos métodos ROLAP e MOLAP. Essa
descrição está presente no item III da questão.
DOLAP (OLAP Desktop): O conjunto de dados multidimensionais deve ser criado
no servidor e transferido para o desktop. Permite portabilidade aos usuários
OLAP que não possuem acesso direto ao servidor.
Os métodos mais comuns de armazenamento de dados utilizados pelos sistemas
OLAP são ROLAP e MOLAP, a principal diferença entre eles é a tecnologia de
banco de dados. O ROLAP usa a tecnologia RDBMS (Relational DataBase
Management System), na qual os dados são armazenados em uma série de
tabelas e colunas. Enquanto o MOLAP usa a tecnologia MDDB (MultiDimensional
Database), onde os dados são armazenados em arrays multidimensionais.
Observem que pela revisão acima podemos associar o gabarito da questão a
alternativa B.
Gabarito: B.
42. ANO: 2014 BANCA: FCC ÓRGÃO: TJ-AP PROVA: ANALISTA

JUDICIÁRIO - BANCO DE DADOS - DBA
Nas ferramentas de navegação OLAP (On-Line Analytical Processing), é possível
navegar entre diferentes níveis de detalhamento de um cubo de dados.
Supondo-se que um relatório esteja consolidado por Estados de um país, o
processo que possibilita que os dados passem a ser apresentados por cidades e
bairros, é denominado
A drill down.
B data mining.
C botton-up.

D drill up.
E top-down.
Comentário: Vejam que essa questão pede para definir a operação que passa
do nível de detalhamento Estado para Cidade e em seguida para Bairro da
dimensão localização. Analisando as opções dadas pelo examinador e levando
em conta o nosso conhecimento sobre as operações OLAP podemos marcar
nossa resposta na alternativa A.
Gabarito: A.
43. ANO: 2010 BANCA: FCC ÓRGÃO: TCE-SP PROVA: AGENTE DA

FISCALIZAÇÃO FINANCEIRA - PRODUÇÃO E BANCO DE DADOS
No modelo multidimensional, significa, de forma simplificada, a redução do
escopo dos dados em análise, além de mudar a ordem das dimensões,
mudando, desta forma, a orientação segundo a qual os dados são visualizados.
Trata-se de
A slice and dice.
B joint.
C grant.
D split.
E tuning.
Comentário: Essa é uma questão clássica da FCC, ela usa uma definição
específica da operação de slice and dice. Falamos sobre ela durante a aula: o
slice and dice serve para modificar a posição de uma informação, alterar linhas
por colunas de maneira a facilitar a compreensão dos usuários e girar o cubo
sempre que tiver necessidade.
Gabarito: A

Quando, em um modelo multimensional, o usuário pular de uma informação
contida em uma dimensão para outra como por exemplo, da dimensão tempo
para a dimensão região, a operação executada corresponde a
A roll trought.
B select.
C drill trought.
D roll up.
E join.

Comentário: Vejamos a definição associada ao termo que corresponde a

resposta da questão: Drill-Throught: ocorre quando o usuário passa de uma
informação contida em uma dimensão para outra. Por exemplo, inicia na
dimensão do tempo e no próximo passo analisa a informação por região. Mais
uma vez, podemos visualizar essa definição no cubo abaixo.
Sabemos ainda que existe outra definição de drill-trough, vejamos essa

definição:
Drill-through: Essa operação pode se utilizar das facilidades de SQL para, a
partir do cubo de dados, penetrar (drill through) até as tabelas relacionais
de back-end. Ela visa o entendimento das informações (registros) a partir dos
quais o cubo é derivado. Assim, permite a movimentação de um dado, em um
determinado nível do cubo para dados de nível operacional. Pode ser usado, por
exemplo, se você está tentando determinar a razão de um ponto fora da curva
(outlier) dentro do cubo de dados.
Pela primeira definição podemos marcar nossa resposta na alternativa C.
Gabarito: C.

Quando, em um modelo multimensional, o usuário pular um nível intermediário
dentro de uma mesma dimensão, como por exemplo, sendo a dimensão tempo
composta por ano, semestre, trimestre, mês e dia e o usuário pular de ano para
mês, a operação executada corresponde a
A tracking.
B hashing.
C drill down.
D drill across.
E union.
Comentário: Essa é mais uma questão que utiliza uma definição alternativa dos
conceitos de operações OLAP. A FCC gosta destas definições. Vejamos a
definição de drill across usada na questão. Drill-Across ocorre quando o usuário
pula um nível intermediário dentro de uma mesma dimensão. Por exemplo, a

dimensão tempo é composta por ano, semestre, trimestre, mês e dia. A

operação drill-across é executada quando o usuário passa de ano direto para
trimestre ou mês. Por essa definição podemos representar a operação de drill-
across conforme a figura abaixo:
Sobre a operação de drill-across encontramos na literatura uma divergência

entre os principais autores. Vejam algumas definições abaixo:
Drill-across: Executa uma consulta envolvendo mais de uma tabela fato! Essa
operação exige que os dois cubos tenham pelo menos uma das dimensões em
comum. A ideia é você conseguir consultar as múltiplas tabelas fato e colocar o
resultado em um único data set. Esta é a visão de Kimball (você pode ver um
exemplo aqui).
Drill-across: Significa mudar de uma classificação em uma dimensão para outra
em uma dimensão diferente.
Drill-across: É uma técnica similar ao drill-down. A diferença é que
o drilling ser feito horizontalmente, ao invés de verticalmente. Por exemplo,
depois de inicialmente exibir o resultado das vendas anuais, o drill-across pode
ser usado para exibir as vendas em cada mês.
Após essa rápida revisão nos termos podemos observar que a FCC usou a
primeira definição e que a nossa resposta se encontra na alternativa D.
Gabarito: D.

A mudança de uma hierarquia (orientação) dimensional para outra tem sua
realização facilitada em um cubo de dados por meio de uma técnica chamada
A roteamento.
B pivoteamento.
C ROLAP.
D OLTP.
E MOLAP.
Comentário. Vejamos a definição envolvida na resposta desta questão. A
operação de pivoteamento, também conhecida como rotate ou rotação, é uma
operação de visualização que rotaciona os eixos de um determinado cubo,
provendo uma visão alternativa dos dados. A figura mostra uma operação de
pivot sobre o resultado da operação de slice. Neste caso, observamos uma
rotação em duas dimensões. Contudo o mesmo pode ser feito, também, em um
cubo 3-D.
Analisando a definição apresentada e o texto do anunciado podemos concluir

que nossa resposta está na alternativa B.
Gabarito: B.
47. ANO: 2014 BANCA: FCC ÓRGÃO: TCE-GO PROVA: ANALISTA DE

CONTROLE EXTERNO - TECNOLOGIA DA INFORMAÇÃO
As ferramentas OLAP permitem efetuar a exploração dos dados de um Data
Warehouse (DW). Em relação a este tema, é correto afirmar:
A A análise multidimensional representa os dados como tabelas, de forma
semelhante aos bancos de dados relacionais.
B Combinando as dimensões, o usuário tem uma visão dos dados de um DW,
podendo efetuar operações básicas como slice and dice, drill down e roll up.
C O resultado das operações OLAP não permite a descoberta de tendências e
cenários; isso é conseguido com sistemas ERP, capazes de transformar dados do
DW em informações estratégicas.
D As operações slice and dice realizam a alteração nos dados do DW modificando
o nível de granularidade da consulta.
E Para navegar nas dimensões do DW são utilizadas as operações drill, que não
afetam o nível de granularidade da consulta.
Comentário: A questão estão está querendo saber se você sabe que na
modelagem multidimensional os dados não estão normalizados. Os dados são
guardados em tabelas quando utilizamos o modelo ROLAP, assim como o
relacional, só que são organizados em um esquema diferente. Utilizando,

geralmente, o modelo star schema. Analisando cada uma das alternativas:
A. A análise multidimensional representa os dados como tabelas, de forma
semelhante aos bancos de dados relacionais. Já falamos que a forma como os
dados são representados é diferente, desta forma, a alternativa está errada.
B. Combinando as dimensões, o usuário tem uma visão dos dados de um DW,
podendo efetuar operações básicas como slice and dice, drill down e roll up.
Essa é a nossa resposta. O texto está perfeitamente correto! ☺
C. O resultado das operações OLAP não permite a descoberta de tendências
e cenários; isso é conseguido com sistemas ERP, capazes de transformar dados
do DW em informações estratégicas. Operações OLAP permitem a descoberta de
tendências e cenários, temos então mais uma alternativa errada.
D. As operações slice and dice realizam a alteração nos dados do DW
modificando o nível de granularidade da consulta. Sabemos que os dados não
==9e8c==
são alterados pelas operações, desta forma a alternativa está incorreta.

E. Para navegar nas dimensões do DW são utilizadas as operações drill, que não
afetam o nível de granularidade da consulta. As operações afetam o nível de
granularidade, ou seja, aumentando ou diminuindo o nível de granularidade, por
isso a alternativa também está incorreta.
Gabarito: B
48. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 4ª REGIÃO (SUL) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA
Um sistema OLAP é um sistema interativo que permite que um analista veja
diferentes resumos de dados multidimensionais. Sobre estes sistemas,
considere:
I. A generalização de uma tabulação cruzada bidimensional para n dimensões
pode ser visualizada como um cubo n-dimensional, chamado cubo de dados.
II. Pode-se obter uma tabulação cruzada sobre os atributos x e y, para um valor
variável de z em uma relação R. Esta operação é chamada de slicing (corte em
pequenos cubos) ou dicing (corte em fatias), particularmente quando os valores
para várias dimensões não são fixos.
II. A operação de mudar as dimensões usadas em uma tabulação cruzada é
chamada de pivoting (pivoteamento).
IV. A operação de passar de dados com detalhamento maior para um
detalhamento menor é chamada de drill down. A operação contrária é chamada
de rollup.
Está correto o que consta APENAS em
A II e IV.
B I e III.
C II e III.
D I e II.
E III e IV.
Comentário: Vamos então analisar cada uma das alternativas acimas:
I. Nesta alternativa temos um conceito relacionado com análise de dados. Na
tabulação cruzada duas variáveis são tabuladas simultaneamente. Uma
tabulação cruzada de duas dimensões é semelhante a uma planilha Excel, com
ambos os cabeçalhos de linha e colunas como atributos. Quando generalizamos
uma tabulação cruzada para n dimensões, temos um cubo multidimensional. O
cubo pode ter 3, 4 … n dimensões. Desta forma a alternativa I se encontra
correta.
II. Cada tabulação cruzada é uma visão bidimensional em um cubo
multidimensional. Vejam que a tabulação é feita sobre duas variáveis e não
sobre uma como sugere o item II, por isso que a afirmação se encontra
incorreta.
III. Sabemos que para mudar as dimensões do cubo usamos a operação de
pivoteamento. Desta forma, podemos usar essa operação para mudar a face do
cubo ou a tabulação cruzada em análise. Alternativa III, portanto, está correta.
IV. Veja que a alternativa troca a definição de drill down e roll up, estando,
portanto, incorreta.
Após analisar cada uma das alternativas podemos marcar nossa resposta na
alternativa B.
Gabarito: B
49. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 3ª REGIÃO (SP MS) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA (BANCO DE DADOS)
A tecnologia de Data Warehouse oferece suporte às ferramentas OLAP, que
apresentam visões multidimensionais de dados permitindo a análise das
operações de negócio para facilitar a tomada de decisões. Estas ferramentas
suportam algumas operações de maneira a dar aos analistas o poder de
observar os dados de várias maneiras em níveis diferentes. Considere duas
destas operações mostradas nas figuras abaixo.

As operações mostradas na Figura 1 e na Figura 2, respectivamente, são

A drill-down e ROLAP.
B rotação e drill-down.
C ROLAP e drill-through.
D rotação e roll-up.
E roll-up e rotação.
Comentário: Ao observar cada uma das figuras percebemos uma rotação entre
a dimensões da figura 1. Vejam que a granularidade dos dados continua a
mesma. Na figura 2 temos um detalhamento dos dados da Região Ásia. A
operação que permite essa passagem é a operação de drill-down. Desta forma,
podemos encontrar nossa resposta na alternativa B.
Gabarito: B
50. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 9ª REGIÃO (PR) PROVA:
As ferramentas OLAP são as aplicações às quais os usuários finais têm acesso
para extrair os dados de suas bases e construir os relatórios capazes de
responder às suas questões gerenciais. As operações realizadas abaixo navegam
nos dados, modificando o nível de granularidade da consulta.

A primeira e a segunda operações são, respectivamente,

A roll up e drill down.
B drill across e slice and dice.
C slice and dice e dill throught.
D dill throught e roll up.
E drill down e roll up.
Comentário: Essa questão trata do conhecimento das operações básicas de
navegação entre as hierarquias das dimensões:
Roll-up: também conhecida como drill-up, aplica uma agregação sobre o cubo
de dados. Ou ainda, aumentar o nível de granularidade dentro de uma
dimensão, reduzindo o detalhamento da informação. É, basicamente, subir na
hierarquia.
Drill-down: É o inverso da operação de roll-up. É uma forma de navegar de um
dado com menor nível de detalhe para um dado com maior nível de detalhe.
Essa operação pode ser realizada tanto descendo em uma hierarquia de uma
dimensão quanto introduzindo dimensões adicionais.
Analisando as definições acima e as opções podemos encontras nossa resposta
na alternativa A.
Gabarito: A
51. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 12ª REGIÃO (SC) PROVA:

Dentre as diferenças cruciais entre o modelo tradicional de uso de bancos de

dados OLTP (Online Transaction Processing) e o modelo voltado para Data
Warehousing (DW) está
A o nível de armazenamento de dados, muito mais sumarizado no caso de DW.
B a quantidade de cláusulas JOIN, utilizadas em maior número para DW.
C a necessidade de normalização para as bases OLAP, o que não é necessário
em OLTP.
D a utilização de dados derivados e agregados em OLTP, o que não ocorre no
ambiente de DW.
E o número de índices necessários, muito maior no caso de DW.
Comentário: Sobre essa questão, temos um assunto pouco abordado, que é a
criação de índices dentro das modelagens OLTP e OLAP (ou DW). Mas vejam:
OLTP: Otimiza o desempenho da atualização minimizando o número de índices.
OLAP: Otimiza consultas ad hoc, incluindo diversos índices.
Observem que a criação e uso de índices acaba sendo maior no DW do que no
OLTP. Quanto a sumarização dos dados lembre-se que nem sempre os dados
aparecem sumarizados no DW. As consultas OLAP, por meio das operações de
roll up que agregam os dados durante a consulta.
Desta forma, podemos marcar o gabarito correto na alternativa E.
Gabarito: E
52. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 15ª REGIÃO (CAMPINAS-
SP) PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
Considere
I. A fonte de dados de todos os cubos OLAP do Service Manager são os data
marts do Operations Manager, enquanto o Configuration Manager fornece dados
em Big Data e CSV, não sendo compatíveis com OLAP.
II. As informações de autenticação sobre a fonte de dados devem ser
armazenadas no SSAS (SQL Server Analysis Services) para se estabelecer o
nível correto de permissões.
III. Os cubos OLAP podem exibir e somar grandes volumes de dados, embora
não forneçam aos usuários acesso pesquisável a quaisquer pontos de dados,
quando os dados precisam ser acumulados, decompostos e analisados, conforme
a necessidade para tratar da maior variedade de questões relevantes à área de
interesse do usuário.
Está correto APENAS o que se afirma em
A III
B II e III
C I e III
D I e II

E II
Comentário: Vamos analisar cada uma das afirmações acima, vamos colocar
em vermelho o que está incorreto:
I. A fonte de dados de todos os cubos OLAP do Service Manager são os data
marts do Operations Manager, enquanto o Configuration Manager fornece dados
em Big Data e CSV, não sendo compatíveis com OLAP. Também podemos
considerar errado o fato da alternativa afirmar que os data marts são a fonte de
dados de todos os cubos OLAP, mas na verdade os data marts são uma parte
mais especializada, que geralmente pertencente a uma área de negócio ou
departamento.
II. As informações de autenticação sobre a fonte de dados devem ser
armazenadas no SSAS (SQL Server Analysis Services) para se estabelecer o
nível correto de permissões. Alternativa correta!
III. Os cubos OLAP podem exibir e somar grandes volumes de dados,
embora não forneçam aos usuários acesso pesquisável a quaisquer
pontos de dados, quando os dados precisam ser acumulados, decompostos e
analisados, conforme a necessidade para tratar da maior variedade de questões
relevantes à área de interesse do usuário. ERRADO
Desta forma, podemos marcar o gabarito na alternativa E.
Gabarito: E.
53. ANO: 2015 BANCA: FCC ÓRGÃO: CNMP PROVA: ANALISTA DO

CNMP - DESENVOLVIMENTO DE SISTEMAS
Em relação às ferramentas de Data Discovery e os fundamentos de Data Mining,
é correto afirmar:
A Data Mining é o processo de descobrir conhecimento em banco de dados, que
envolve várias etapas. O KDD – Knowledge Discovery in Database é uma destas
etapas, portanto, a mineração de dados é um conceito que abrange o KDD.
B A etapa de KDD do Data Mining consiste em aplicar técnicas que auxiliem na
busca de relações entre os dados. De forma geral, existem três tipos de
técnicas: Estatísticas, Exploratórias e Intuitivas. Todas são devidamente
experimentadas e validadas para o processo de mineração.
C Os dados podem ser não estruturados (bancos de dados, CRM, ERP),
estruturados (texto, documentos, arquivos, mídias sociais, cloud) ou uma
mistura de ambos (emails, SOA/web services, RSS). As ferramentas de Data
Discovery mais completas possuem conectividade para todas essas origens de
dados de forma segura e controlada.
D Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são
do tipo estruturado. Existem diversas ferramentas open source e comerciais de
Data Discovery. Dentre as open source está a InfoSphere Data Explorer e entre
as comerciais está a Vivisimo da IBM.
E As ferramentas de Data Mining permitem ao usuário avaliar tendências e
padrões não conhecidos entre os dados. Esses tipos de ferramentas podem

utilizar técnicas avançadas de computação como redes neurais, algoritmos

genéticos e lógica nebulosa, dentre outras.
Comentário: Vamos fazer alguns comentários interessantes sobre essa
questão. Primeiramente, Mineração de Dados é parte de um processo maior de
pesquisa denominado Busca de Conhecimento em Banco de Dados (Knowledge
Discovery in Database - KDD), o qual possui uma metodologia própria para
preparação e exploração dos dados, interpretação de seus resultados e
assimilação dos conhecimentos minerados. No entanto, se tornou mais
conhecida do que o próprio processo de KDD em função de ser a etapa onde são
aplicadas as técnicas de busca de conhecimentos.
Os métodos de data mining são tecnologias existentes, independente do
contexto mineração de dados, uma vez que, aplicados na KDD, produzem bons
resultados, transformando dados em conhecimento útil e favorecendo as
práticas de estudos baseados em evidências. São vários métodos existentes e
utilizados, entre eles temos: Rede Neurais, Árvore de Decisão, Algoritmos
Genéticos (AGs), Lógica Nebulosa (Fuzzy logic) e Estatística.
Um método muito utilizado é a Lógica Nebulosa (Fuzzy logic), uma teoria
matemática que permite uma modelagem do modo aproximado de raciocínio,
imitando a habilidade humana de tomar decisões em ambientes de incertezas e
imprecisão. Com isso, pode-se construir sistemas inteligentes de controle e
suporte à decisão.
Analisando a explicação teórica podemos perceber que a alternativa E se
encontra correta. Como exercício, você pode encontrar os erros das demais
alternativas.
Gabarito: E.
54. ANO: 2014 BANCA: FCC ÓRGÃO: TCE-RS PROVA: AUDITOR

PÚBLICO EXTERNO - TÉCNICO EM PROCESSAMENTO DE DADOS
A revista da CGU − Controladoria Geral da União, em sua 8a edição, publicou
um artigo que relata que foram aplicadas técnicas de exploração de dados,
visando a descoberta de conhecimento útil para auditoria, em uma base de
licitações extraída do sistema ComprasNet, em que são realizados os pregões
eletrônicos do Governo Federal. Dentre as técnicas preditivas e descritivas
utilizadas, estão a classificação, clusterização e regras de associação. Como
resultado, grupos de empresas foram detectados em que a média de
participações juntas e as vitórias em licitações levavam a indícios de conluio.
As técnicas aplicadas referem-se a
A Customer Churn Trend Analysis.
B On-Line Analytical Processing.
C Data Mining.
D Business Process Management.
E Extraction, Transformation and Load.

Comentário: Vejam que todas as técnicas se referem as atividades de data

mining. Vamos rapidamente relembrar o conceito de cada uma delas:
É possível usar a análise preditiva para resolver seus problemas mais difíceis.
Ela ajuda a descobrir padrões no passado que podem sinalizar o que está por
vir. Essa análise é capaz de descobrir padrões ocultos nos dados que o
especialista humano pode não ver. Ela é, na verdade, o resultado de matemática
e estatística aplicada aos dados.
As técnicas descritivas ou exploratórias são utilizadas para organizar os
dados e investigá-los, relatar ou expor características dos mesmos e procurar
indícios de padrões ou características interessantes que possam indicar possíveis
tendências.
A classificação representa a generalidade de problemas de mineração de dados
atualmente, através da criação de modelos de classes para um conjunto de
objetos. Após a definição de um conjunto de classes, novos objetos cadastrados
na base de dados podem ser classificados de acordo com as classes previamente
definidas.
As técnicas de clusterização procuram semelhanças e diferenças num
conjunto de dados e agrupam os registos semelhantes em segmentos ou
clusters, de uma forma automática, de acordo com algum critério ou métrica.
A associação visa solucionar problemas de análise de cesta de produtos,
gerando modelos descritivos que permitem descobrir regras ou padrões de
consumo de clientes.
Gabarito: C.
55. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 3ª REGIÃO (SP MS) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA (BANCO DE DADOS)
Mineração de dados é a investigação de relações e padrões globais que existem
em grandes bancos de dados, mas que estão ocultos no grande volume de
dados. Com base nas funções que executam, há diferentes técnicas para a
mineração de dados, dentre as quais estão:
I. identificar afinidades existentes entre um conjunto de itens em um dado grupo
de registros. Por exemplo: 75% dos envolvidos em processos judiciais ligados a
ataques maliciosos a servidores de dados também estão envolvidos em
processos ligados a roubo de dados sigilosos.
II. identificar sequências que ocorrem em determinados registros. Por exemplo:
32% de pessoas do sexo feminino após ajuizarem uma causa contra o INSS
solicitando nova perícia médica ajuízam uma causa contra o INSS solicitando
ressarcimento monetário.
III. as categorias são definidas antes da análise dos dados. Pode ser utilizada
para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.
Os tipos de técnicas referenciados em I, II e III, respectivamente, são:
A Padrões sequenciais - Redes Neurais - Árvore de decisão
B Redes Neurais - Árvore de decisão - Padrões sequenciais

C Associação - Padrões sequenciais - Classificação
D Classificação - Associação - Previsão
E Árvore de decisão - Classificação – Associação
Comentário: Já descrevemos as técnicas utilizadas em mineração de dados que
podem ser utilizadas em diferentes contextos. Agora podemos associas o item I
as regras de associação, o item 2 a padrões sequenciais e o item III a
classificação. Assim temos o gabarito na alternativa C.
Gabarito: C.
56. ANO: 2013 BANCA: FCC ÓRGÃO: MPE-MA PROVA: ANALISTA

JUDICIÁRIO - BANCO DE DADOS
Uma das funções desempenhadas pelas técnicas de mineração de dados consiste
em determinar que itens de um conjunto de dados ocorrem de forma
simultânea. Essa função recebe a denominação de
A análise de afinidade.
B estimativa.
C previsão.
D seleção adaptativa.
E análise de variância.
Comentário: Vamos começar definindo cada alguns dos termos acima que
considero relevantes:
Análise de Afinidade – Como o nome já diz, essa técnica determina que
alguns fatos ocorrem simultaneamente com probabilidade razoável, ou então
que itens de dados estão presentes conjuntamente com uma chance razoável.
Um exemplo disso é o de um carrinho de supermercado, através dele pode-se
extrair informações para que a organização dos produtos no supermercado
agrade aos consumidores, colocando próximos uns aos outros produtos
comprados em conjunto.
Estimativa – Esta técnica é utilizada para determinar um valor aproximado de
uma variável através de dados que foram passados ou de dados adquiridos de
outras variáveis semelhantes, sobre os quais se tem conhecimento.
Previsão – Esta técnica tem por objetivo a avaliação de um valor de uma
variável ainda não identificada, baseando-se em dados adquiridos através do
comportamento desta variável ao longo do tempo.
Vejam que analisando as descrições dadas para cada um dos termos presentes
nas alternativas, podemos concluir que a resposta se encontra na alternativa A.
Gabarito: A.


NÃO é um objetivo da mineração de dados (mining), na visão dos diversos
autores,
A garantir a não redundância nos bancos transacionais.
B conhecer o comportamento de certos atributos no futuro.
C possibilitar a análise de determinados padrões de eventos.
D categorizar perfis individuais ou coletivos de interesse comercial.
E apoiar a otimização do uso de recursos limitados e/ou maximizar variáveis de
resultado para a empresa.
Comentário: Essa questão serve para aprendermos um pouco sobre os
objetivos de mineração de dados. Vejam que a resposta está na alternativa
A, sabemos que a garantia de não redundância dos bancos de dados
transacionais não tem nenhuma relação com um modelo multidimensional
usado para análise de dados.
Por outro lado, observem as demais alternativas. Cada uma delas apresente um
dos possíveis objetivos das tarefas de data mining.
Gabarito: A

A data mining apoia o conhecimento indutivo que pode ser representado por
I. Lógica proposicional.
II. Árvores de decisão.
III. Redes neurais.
IV. Redes semânticas.
Está correto o que consta em
A I e III, apenas.
B II e III, apenas.
C II, III e IV, apenas.
D I, II e IV, apenas.
E I, II, III e IV.
Comentário: Segundo o Navathe, Data Mining apoia o conhecimento indutivo,
que descobre novas regras e padrões nos dados fornecidos. O conhecimento
pode ser representado de muitas formas. Em um senso não estruturado, pode
ser representado por regras ou por lógica proposicional. Em uma forma
estruturada, pode ser representado por árvores de decisão, redes
semânticas, redes neurais ou hierarquias de classes ou frames. Desta forma,

podemos concluir que todas as alternativas estão corretas e nossa resposta

encontra-se na alternativa E.
Gabarito: E

No âmbito dos algoritmos associados ao mining, se houver um banco de dados
com um número potencial pequeno de conjuntos de itens grandes, isto é, uns
poucos milhares, então o suporte para todos eles podem ser testado em uma
passagem usando a técnica específica de
A hierarquização.
B partição.
C amostragem.
D árvore de padrão frequente.
E séries temporais.
Comentário: Essa foi mais uma questão que foi retirada do livro do Navathe.
Vamos analisar cada uma das alternativas para entender cada um dos conceitos:
Hierarquização: Existem alguns tidos de associações que são particularmente
interessantes por alguma razão especial. Essas associações ocorrem entre
hierarquias de itens. Tipicamente, é possível dividir itens entre hierarquias
separadas baseadas na natureza do domínio. Após dividir os itens em
hierarquias distintas nosso interesse se concentra nas descobertas de regras de
associações entre as diferentes hierarquias.
Partição: Se tivermos um banco de dados com um número potencial pequeno
de conjuntos de itens grandes, digamos, uns poucos milhares, então o suporte
para todos eles podem ser testado em uma passagem usando a técnica de
partição.
Amostragem: A ideia principal do algoritmo de amostragem é selecionar uma
pequena amostra, que caiba na memória principal do banco de dados de
transações, e determinar os conjuntos de itens frequentes daquela amostra.
Árvore de padrão frequente: O algoritmo de árvore padrão frequente é
motivado pelo fato de que os algoritmos baseados no algoritmo Apriori podem
gerar e testar um número muito grande de conjunto de itens candidatos.
Séries temporais: são sequencias de eventos, cada evento pode ser um tipo
fixo dado uma transação. Por exemplo, o preço de fechamento de uma ação na
bolsa de valores.
Desta forma podemos encontrar nossa resposta correta na alternativa B.
Gabarito: B


Uma das abordagens de mining define que, se uma regra de classificação é
considerada uma função sobre variáveis que as mapeia em uma classe destino,
a regra é chamada
A categorização.
B Apriori.
C algoritmo genético.
D regressão.
E minimização.
Comentário: Mais uma questão da FCC cuja referência é o livro do Navathe,
vejamos o que ele tem a dizer sobre regressão:
Regressão é uma aplicação especial da regra de classificação. Se uma regra de
classificação é considerada uma função sobre variáveis que as mapeia em uma
classe destino, a regra é chamada regressão. Uma aplicação de regressão ocorre
quando, em vez de mapear uma tupla de dados de uma relação para uma classe
específica, o valor da variável é previsto baseado naquela tupla
Outro termo que é comentado na questão e que ainda não falamos são os
algoritmos genéticos. Algoritmos Genéricos ou AGs são algoritmos de
otimização e busca baseados nos mecanismos de seleção natural e genética.
Enquanto os métodos de otimização e busca convencionais trabalham
geralmente de forma sequencial, avaliando a cada instante uma possível
solução, os AGs trabalham com um conjunto de possíveis soluções
simultaneamente. Algoritmos Genéticos (AGs) são uma classe de procedimentos
de pesquisa aleatórios capazes de realizar pesquisas adaptativas e robustas
sobre uma ampla gama de topologias de espaço de pesquisa. Modelados após o
surgimento adaptativo de espécies biológicas a partir de mecanismos evolutivos
e introduzidos por Holland, AGs vêm sendo aplicados com sucesso em campos
diversificados como análise de imagens, escalonamentos e projetos de
engenharia.
Vejam que pelo exposto acima podemos marcar nossa resposta na alternativa
D.
Gabarito: D

Considere uma dada população de eventos ou novos itens que podem ser
particionados (segmentados) em conjuntos de elementos similares, tal como,
por exemplo, uma população de dados sobre uma doença que pode ser dividida
em grupos baseados na similaridade dos efeitos colaterias produzidos. Como um
dos modos de descrever o conhecimento descoberto durante a data mining este
é chamado de
A associação.

B otimização.
C classificação.
D clustering.
E temporização.
Comentário. Vamos voltar para as definições vistas ao longo do texto teórico da
aula. Essa questão vai nos ajudar a fixar conceitos fazendo uma revisão sobre o
assunto. Faremos uma definição de cada um dos termos listados nas
alternativas, exceto de temporização que não faz parte do escopo de mineração.
Associação: Devido a sua grande aplicabilidade, as regras de
associação encontram-se entre um dos mais importantes tipos de
conhecimento que podem ser minerados em bases de dados. Estas regras
representam padrões de relacionamento entre itens de uma base de dados. Uma
de suas típicas aplicações é a análise de transações de compras (market
basket analysis), um processo que examina padrões de compras de
consumidores para determinar produtos que costumam ser adquiridos em
conjunto. Um exemplo de regra de associação, obtida a partir da análise de uma
base de dados real, que registra os produtos adquiridos por famílias cariocas em
suas compras mensais, é dado por: {mini-pizza semi-pronta} Þ {suco de fruta
em pó}. Esta regra de associação indica que as famílias que compram o produto
{mini-pizza semi-pronta} tem maior chance de também adquirir o produto
{suco de fruta em pó}.
Otimização: Esta funcionalidade visa otimizar recursos limitados como tempo,
espaço, dinheiro, matéria-prima etc, buscando maximizar variáveis de resultado
como vendas, lucros, distribuição, economia de espaço etc. Esta funcionalidade
se aproxima dos estudos da área de pesquisa operacional, a qual trata de
problemas de otimização, sempre sujeito a um conjunto de restrições. Como
exemplo, podemos estudar as vendas de um supermercado, no sentido de
otimizar a distribuição de seus produtos em suas gôndolas, visando otimizar a
exposição de um número cada vez maior de produtos.
Classificação: A classificação consiste em examinar uma certa característica
nos dados e atribuir uma classe previamente definida. Dados podem ser
associados a classes ou a conceitos através de um processo de discriminação ou
de caracterização. Discriminação se caracteriza por ter seu resultado obtido
através da atribuição de um valor a um atributo no registro, em função de um
ou mais atributos do mesmo. Por exemplo, em um supermercado podemos
classificar os produtos por tipo como alimentício, vestuário, higiene e limpeza
etc. Já caracterização é a sumarização de um atributo de estudo por uma
característica de um ou mais atributos. Por exemplo, podemos caracterizar um
empregado pelo seu salário anual, identificando faixas da agregação mensal de
seus salários em baixa, média e alta.
Clustering: Esta funcionalidade visa segmentar um conjunto de dados num
número de subgrupos homogêneos ou clustering. Seu objetivo é formar
grupos baseados no princípio de que esses grupos devem ser o mais homogêneo
em si e mais heterogêneo entre si. A diferença fundamental entre a formação de
agrupamento e a classificação é que no agrupamento não existem classes
predefinidas para classificar os registros em estudo. Os registros são agrupados
em função de suas similaridades básicas, ou seja, quando se deseja formar

agrupamentos, seleciona-se um conjunto de atributos (variáveis) e em função

da similaridade desses atributos são formados os grupos.
Analisando cada um dos termos acima podemos concluir que nossa resposta
está na alternativa D.
Gabarito: D
62. CESPE - DEPEN - 2015 - Agente Penitenciário Federal - Tecnologia

da Informação (Médio)
Acerca de datawarehouse e datamining, julgue os itens subsequentes.
[116] Os objetivos do datamining incluem identificar os tipos de relacionamentos
que se estabelecem entre informações armazenadas em um grande repositório.
[117] Datamart é a denominação atribuída a um sistema de dataware que
atende a áreas específicas de negócios de organizações e que representa um
subconjunto lógico do datawarehouse.
[118] O datawarehouse possibilita a análise de grandes volumes de dados, que,
por sua vez, permitem a realização de uma melhor análise de eventos futuros.
Comentário. Vamos então comentar cada uma das afirmações acima:
116. A definição dos objetivos de datamining presentes na alternativa está
alinhada com as definições clássicas do conceito, vejamos uma delas:
“Mineração de dados é o processo de exploração de grandes quantidades de
dados com o objetivo de encontrar anomalias, padrões e correlações para
suportar a tomada de decisões e proporcionar vantagens estratégicas. Usando
uma ampla variedade de técnicas, você pode utilizar estas informações para
aumentar as receitas, reduzir custos, melhorar o relacionamento com os
clientes, reduzir riscos e muito mais”. Pelo exposto podemos concluir que a
alternativa se encontra correta.
117. O conceito de datamart está associado a um subconjunto do data
warehouse e, normalmente, é orientado para uma área de negócios da empresa
ou equipe específica. Considerando que os data warehouses têm seu escopo
sobre toda a empresa ou organização, as informações em data marts pertencem
a um único departamento. Desta forma, podemos concluir que a afirmação está
correta.
118. Do ponto de vista teórico, e talvez um pouco preciosista, as tarefas de data
mining são divididas em descritivas e preditivas. As descritivas caracterizam
as propriedades gerais dos dados em um banco de dados, basicamente, focam
em achar padrões reconhecidos por seres humanos para descrever os dados.
Já as preditivas essas tarefas realizam uma inferência sobre os dados atuais
para fazer previsões sobre os mesmos. Usam variáveis para prever valores
futuros ou desconhecidos de outras variáveis. Vejam que você não faz
análise de eventos futuros. Isso é semanticamente incoerente. Desmembrando
a questão temos:
1 - "O datawarehouse possibilita a análise de grandes volumes de
dados." Está frase está ok, usou a palavra possibilita e não disse que era
responsável. Continuando a análise:
2 - "... que, por sua vez, permitem a realização de uma melhor análise de
eventos futuros." Ao meu ver, esse "que, por sua vez" diz respeito a "análise
de grandes volumes de dados" e não ao DW. Então substituindo ficaria
assim: "..análise de grandes volumes de dados permitem a realização de
uma melhor análise de eventos futuros"
Veja que está estranho, a análise permite uma melhor análise ... desta forma a
questão encontra-se errada.
Gabarito: C C E.

Considerações Finais
Chegamos ao final da nossa aula que abordou os assuntos relacionados a

OLAP, Data Mining e Visualização. Essa aula faz parte de um conjunto de aulas
que cobrem o assunto de BI, nas próxima aula falaremos sobre Big Data.
Esperamos que você tenha gostado e aprendido bastante sobre o assunto.
Até a próxima!
Thiago Cavalcanti


Del - Curso 40546 Aula 05 v1

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Del - Curso 40546 Aula 05 v1

Enviado por

Direitos autorais:

Formatos disponíveis

Livro Eletrônico

Análise de Informações p/ TCU 2018 (Todos os Cargos) Com videoaulas

Professor: Thiago Rodrigues Cavalcanti

AULA 05: Noções de mineração de dados:

Prof. Thiago Rodrigues Cavalcanti

Vamos mostrar como recuperar as informações e como visualizar esses

Para ajudar a resolver esses questionamentos surge um conjunto de

Prof. Thiago Rodrigues Cavalcanti

• Eduardo Gimenes: É o processo de extrair informação válida,

• Laudon&Laudon: Análise de grandes quantidades de dados a fim de

• Mineração de dados, ou data mining, é o processo de análise de conjuntos

Como o nome indica data mining se refere à mineração ou a descoberta

Vejamos outras definições possíveis para o termo. “A mineração de dados

Mineração envolve o uso de ferramentas sofisticadas de análise de dados

As técnicas tradicionais poderiam não se ajustar a enorme quantidade de

Prof. Thiago Rodrigues Cavalcanti

1. Ano: 2016 Banca: CESPE Órgão: TCE-PA Prova: Auditor de Controle

Ok! Então, antes de começarmos a descrever o que mais faz parte da

• Data Mining é automático: é um processo, é iterativo, requer

• Investimentos são recuperados rapidamente: depende de muitos

• Software são intuitivos e simples: é mais importante conhecer os

• Data Mining pode identificar problemas no negócio: DM pode

Podemos concluir então que existe um processo iterativo, que requer

O uso da mineração de dados é, portanto, potencializada, por alguns

Prof. Thiago Rodrigues Cavalcanti

2. Ano: 2015 Banca: CESPE Órgão: TCU Prova: Auditor Federal de

Para executarmos qualquer análise sobre os dados é necessário que

Outra taxonomia divide as tarefas em top-down e botton-up. Algumas

Outras tarefas são melhor abordadas de forma bottom-up chamado de

Prof. Thiago Rodrigues Cavalcanti

3. Ano: 2015 Banca: CESPE Órgão: TCU Prova: Auditor Federal de

As tarefas adequadas para mineração de dados (não é limitado a essas)

Outro ponto importante dentro do assunto são as técnicas de mineração

Vejamos uma questão da ESAF a respeito dos conceitos acima:

4. Questão 54 - ESAF - 2012 - CGU - Analista de Finanças e Controle -

Um último conceito que já foi cobrado em provas de concurso diz respeito

- Modelos simples (consultas baseadas em SQL, OLAP, raciocínio

- Modelos intermediários (regressão, árvores de decisão,

- Modelos complexos (redes neurais, indução de regras).

Veja que esse conceito também já foi cobrado em provas anteriores,

5. Questão 55 - ESAF - 2012 - Receita Federal - Analista Tributário da RF

Prof. Thiago Rodrigues Cavalcanti

- Modelos complexos (redes neurais, outra indução de regras)

2.1. Processo de mineração

Baseado na figura é possível listar as etapas do processo:

1. Limpeza dos dados: etapa onde são eliminados ruídos e dados

2. Integração dos dados: etapa onde diferentes fontes de dados podem

3. Seleção: etapa onde são selecionados os atributos que interessam ao

4. Transformação dos dados: etapa onde os dados são transformados

5. Mineração: etapa essencial do processo consistindo na aplicação de

Esse fluxo já foi assunto de questões em certames anteriores. Vejamos

6. Questão 57. INFRAERO - Analista Superior III -Analista de Sistemas -

Q.50. No âmbito da descoberta do conhecimento (KDD), a visão geral das

O processo de mineração de dados se assemelha um pouco ao processo

Em 1996, um conjunto de três empresas especializadas no então jovem e

Na figura anterior é mostrado o ciclo de vida de um projeto de mineração

Prof. Thiago Rodrigues Cavalcanti

setas indicam as mais importantes e mais frequentes dependências entre as

O ciclo externo na figura simboliza o ciclo natural da mineração de dados.

O entendimento do negócio (Business Understanding) foca no

Uma vez definido o domínio sobre o qual se pretende executar o processo

Essa fase se inicia com uma coleta inicial de dados, e com