Escolar Documentos
Profissional Documentos
Cultura Documentos
Del - Curso 40546 Aula 05 v1
Del - Curso 40546 Aula 05 v1
Aula 05
Sumário
1. Recuperação de dados ................................................................................................... 2
Data mining ........................................................................................................................................ 2
2. Conceitos básicos ............................................................................................................. 3
2.1. Processo de mineração .............................................................................................. 8
2.2. Técnicas de pré-processamento ........................................................................... 13
2.3. Tarefas de mineração ............................................................................................... 15
2.3.1. Regras de associação............................................................................................ 15
2.3.2. Classificação ............................................................................................................. 18
2.3.3. Agrupamento (Clustering) .................................................................................. 21
2.3.4. Abordagem para outros problemas de mineração .................................... 23
2.4. Conceitos Complementares .................................................................................... 25
Visualização e análise exploratória de dados ...................................................................... 28
OLAP .................................................................................................................................................... 30
3. Conceitos básicos ........................................................................................................... 30
4. OLAP x OLTP..................................................................................................................... 31
5. Operações OLAP.............................................................................................................. 33
6. Arquitetura de servidores OLAP................................................................................ 41
7. Critérios de avaliação de produtos OLAP .............................................................. 44
Questões Comentadas.............................................................................................................. 47
Considerações Finais ..................................................................................................................... 83
1. Recuperação de dados
Nesta aula, nosso objetivo é apresentar as diferentes técnicas e
ferramentas que fazem acesso ao Data Warehouse (DW). É preciso entender que
cada uma delas atende a uma necessidade específica de usuários e clientes.
Data mining
Existe geralmente informação “escondida” nos dados que não são tão
evidentes no momento da leitura. Um analista humano pode levar semanas para
descobrir essa informação útil. A maioria dos dados de fato nunca é analisada.
Com o crescimento da capacidade de processamento e armazenamento surgem
perguntas sobre como identificar padrões (“X” acontece se...), exceções (isto
é diferente de... por causa de...), tendências (ao longo do tempo, “Y” deve
acontecer...) e correlações (se “M” acontece, “N” também deve acontecer).
2. Conceitos básicos
Começamos os conceitos tentando responder ao seguinte
questionamento: O que é mineração de dados? Vários autores propuseram
definições semelhantes para o termo, vejamos algumas delas:
Vamos então fazer uma questão CESPE sobre esses conceitos básicos par
a fixarmos o assunto.
Vamos agora fazer mais uma questão do CESPE para fixação dos
conceitos.
A classificação das tarefas pode ser feita de acordo com alguns critérios. O
primeiro divide as tarefas em descritivas e preditivas. As descritivas
caracterizam as propriedades gerais dos dados em um banco de dados. Estão
focadas em achar padrões reconhecidos por seres humanos para descrever os
dados. As preditivas, por outro lado, realizam uma inferência sobre os dados
atuais para fazer previsões futuras sobre os mesmos. Usa variáveis para prever
valores futuros ou desconhecidos de outras variáveis.
Por fim, temos três características que são aplicadas a muitos conjuntos
de dados e que possuem um impacto significativo sobre as técnicas de
mineração de dados: dimensão, dispersão e resolução. A dimensão refere-
se à quantidade de atributos de um conjunto de dados. A resolução está
relacionada à granularidade dos dados. Um conjunto de dados é muito disperso
quando para um atributo relevante, a maioria dos valores é NULL ou um valor
padrão. Esse conceito está relacionado à dispersão.
Comentário: Questão retirada de TAN et. al (2009, p. 35), que destaca três
características aplicadas a muitos conjuntos de dados e que possuem um
impacto significativo sobre as técnicas de mineração de dados: dimensão,
dispersão e resolução. Vejamos novamente a definição destes conceitos.
A dimensão refere-se à quantidade de atributos de um conjunto de dados;
A resolução está relacionada à granularidade dos dados.
Um conjunto de dados é muito disperso quando para um atributo relevante, a
maioria dos valores é NULL ou um valor padrão, e esse conceito está relacionado
à dispersão.
Gabarito: D.
10. Ano: 2015 Banca: CESPE Órgão: TCU Prova: Auditor Federal de
Controle Externo - Conhecimentos Gerais
No que concerne a data mining (mineração de dados) e big data, julgue o
seguinte item.
No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing
Comentário: Observamos que regra de associação é uma das tarefas que são
utilizadas pelo marketing. Desta forma, mineração de dados é sim umas das
ferramentas que podem ser utilizadas pelo marketing para auxiliar tomadas de
decisões da empresa. Logo a alternativa está incorreta.
Gabarito: E.
11. Ano: 2008 Banca: FGV Órgão: Senado Federal Cargo: Analista de
Sistemas
Uma pergunta pode ser relevante neste momento: como descobri todos
os conjuntos de itens grandes?
2.3.2. Classificação
Parece ser um imperativo humano. A fim de compreender e comunicar
sobre o mundo que estamos constantemente a classificar, categorizar e
classificar. Dividimos as coisas vivas em filos, espécies e gênero; matéria em
elementos; cães em raças, as pessoas em raças. Os objetos a serem
classificados são geralmente representados por registros em um banco de dados
ou um arquivo, e o ato de classificação consiste em adicionar uma nova coluna
com um código de classe de algum tipo.
2.3.3. Agrupamento
8 (Clustering)
Diferentemente da classificação e predição onde os dados de treinamento
estão devidamente classificados e as etiquetas das classes são conhecidas, a
análise de clusters trabalha sobre dados onde as etiquetas das classes não estão
definidas.
14. Ano: 2016 Banca: CESPE Órgão: TCE-SC Prova: Auditor Fiscal de
Controle Externo - Informática
Julgue o item subsecutivo, acerca de mineração de dados.
As aglomerações, tipos de informação obtidos por meio da mineração de dados,
caracterizam-se por se ligarem a um único e específico evento, em torno do qual
ocorrem várias ações, com produção sistêmica de informações gerenciais que
apoiarão uma nova ocorrência do mesmo tipo de evento.
Comentário: Nesta questão temos uma confusão entre o conceito de
aglomeração e o de regra de associação. Essa falha torna a alternativa incorreta.
Gabarito: E.
entre si. Mas como medir essa semelhança. Existem algumas métricas para
calcular as distâncias e dissimilaridades entre os itens de dados.
15. Ano: 2017 Banca: CESPE Órgão: SEDF Prova: Analista de Gestão
Educacional - Tecnologia da Informação
Com relação a data mining e data warehouse, julgue o item que se segue.
Agrupar registros em grupos, de modo que os registros em um grupo sejam
semelhantes entre si e diferentes dos registros em outros grupos é uma maneira
de descrever conhecimento descoberto durante processos de mineração de
dados.
Comentário: Vejam que a questão apresenta uma definição coerente, a
aglomeração (clustering) funciona de maneira semelhante a classificação quando
ainda não foram definidos grupos. Uma ferramenta de data mining descobrirá
diferentes agrupamentos dentro da massa de dados. Por exemplo ao encontrar
grupos de afinidades para cartões bancários ou ao dividir o banco de dados em
categorias de clientes com base na demografia e em investimentos pessoais.
Neste caso, temos que lembrar que o interesse da aglomeração é segmentar
uma amostra, em classe pré-definida. Não estamos tentando classificar novos
valores.
Quando: Y = f(x1, x2, ..., xn). Uma função f é linear no domínio das
variáveis xi, o processo de derivar f de um dado conjunto de tuplas para <x1,
x2, ... Xn, y> é chamado regressão linear.
• Preditivo - A data mining pode mostrar como certos atributos dos dados
irão se comportar no futuro
Mineração de texto
O termo On-Line Analitical Processing – OLAP foi proposto por E.F. Codd, o
pai do modelo relacional. O modelo relacional põe os dados em tabelas,
enquanto o OLAP usa a representação de arrays multidimensionais. Essa
representação de dados já existia previamente na estatística e em outras áreas.
Existe um grande número de operações de análise de dados e exploração de
dados que são facilitadas como esse modelo de representação. Vamos entender
o conceito por trás desse modelo.
3. Conceitos básicos
Começamos tentando responder a uma pergunta básica: O que é OLAP?
Trata-se de um processamento de dados dedicado ao suporte a decisão. Essa
análise é feita por meio da visualização de dados agregados ao longo de várias
dimensões analíticas do modelo de dados dimensional (ex.: tempo, espaço,
categoria de produto, quantidade vendida, preço).
sobre eles na aula anterior. Sabemos inclusive que os dados são estruturados de
forma hierarquizada em diferentes níveis de granularidade.
Partindo dos três conceitos vistos até agora, passaremos para uma
sistematização do conhecimento dentro do assunto. Os conceitos de OLAP, mais
precisamente quando tratamos de questões para concursos, podem ser
classificados da seguinte forma: 1. OLAP x OLTP, 2. Operações OLAP e 3.
Taxonomias de servidores OLAP.
4. OLAP x OLTP
On-Line Analytical Processing (OLAP) é muito diferente do tradicional On-
Line Transaction Processing (OLTP). Quando utilizamos OLTP, o foco é sobre as
transações individuais. Considere, por exemplo, um sistema OLTP simples usado
por um vendedor de livros para manter a par dos livros em estoque. Quando
uma cópia de um determinado livro B é vendida, o sistema diminui o número
que mostra quantas cópias de B estão em estoque.
O varejista pode até saber quem é o cliente, mas esta informação não é
mantida com a finalidade de análise posterior. O sistema armazena suas
informações em um banco de dados relacional que é normalizada para evitar
anomalias de atualização. Este tipo de sistema é conhecido como OLTP. Ele é
otimizado para recuperação e/ou atualização de uma pequena quantidade de
tuplas.
Ele é usado para o armazenamento de tais dados. Desta forma é mais fácil
achar, por exemplo, o livro de receitas mais vendido e o número médio de livros
infantis vendidos antes de uma operação de vendas. O OLAP geralmente não
apaga nem atualiza seus dados; apenas adições de novos dados ocorrerão no
5. Operações OLAP
Passamos agora para as operações OLAP. Conhecida também como
funcionalidades. Aqui estão as funções que podem ser aplicadas sobre os dados
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 33 de 83
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti Aula 05
disponíveis nos cubos ou nos DW. Antes de tratarmos das funções vamos
relembrar o conceito de granularidade.
Slice and dice: A operação de slice executa uma seleção sobre uma das
dimensões de um determinado cubo, resultando em um subcubo. A figura
mostra um exemplo da operação de slice que seleciona as vendas por cidade em
um determinado semestre (nestre caso, quarter = Q1).
Até aqui vimos as mais simples operações de OLAP, que podem, inclusive,
ser consideradas operações básicas. Contudo, ainda não tratamos das famosas
Drill-across e Drill-through. Vamos agora definir cada um deles:
Suponha que um gerente deseja fazer uma consulta para saber qual livro
foi o mais vendido nos anos de 2008 e 2009. Para fazer o drill-across, nós
atendemos à primeira premissa segundo Kimball: trata-se de uma operação
sobre dois cubos. Os dados nos dois cubos são combinados nas dimensões
comuns aos mesmos.
Nesse caso, livros e tempo. O analista vai, então, utilizar uma medida
derivada para somar as vendas dos dois cubos e dessa forma obter o livro com
maior quantidade de vendas. Veja que o drill-across abre um novo caminho para
que você possa analisar os dados. A figura abaixo ilustra esse exemplo:
Até aqui falamos das principais operações de OLAP, outras que às vezes
aparecem na literatura são listadas abaixo com suas respectivas definições:
Algumas operações podem ser efetuadas entre cubos e que são baseadas
na teoria dos conjuntos, são elas: Junção, União, Intersecção e Diferença.
Vejamos o exemplo da operação cross-join (produto cartesiano) abaixo:
temos condições de dizer qual operação OLAP foi executada para obtenção dessa
visão.
A alternativa D apresenta uma operação de ROLL-UP, agregando os valores das
quantidades e agrupando os tipos de produtos. Por fim, a alternativa E
apresenta a operação de PIVOT.
Gabarito: B.
Data Sources. São as fontes que provem dados para serem analisados.
Dependendo do produto OLAP pode ser um DW, um banco de dados legado,
uma coleção de spreadsheets, ou ainda, uma combinação de todos. A habilidade
do produto OLAP em trabalhar com várias fontes diferentes é importante.
MOLAP
Um conceito que faz parte dos modelos MOLAP é a explosão dos dados. É
difícil determinar condições para a explosão de dados, ou para prever se uma
ROLAP
Um dos motivos para escolher pelo uso do ROLAP está no fato de RDBs
são uma tecnologia bem estabelecida que tem muitas oportunidades para
otimização. Suporta maior quantidade de dados que uma MDDB.
HOLAP e DOLAP
Questões Comentadas
Apresentamos abaixo um conjunto de questões sobre o assunto que
aprendemos nesta aula. Esperamos que elas ajudem na fixação da matéria.
Qualquer dúvida, estamos às ordens!
Gabarito: A
acima podemos chegar à resposta na letra B. Abaixo temos uma figura do livro
do TAN que apresenta graficamente a definição de classificação.
Gabarito: B
[2] Nos sistemas OLAP, os usuários têm permissão para leitura, inserção,
modificação e exclusão dos dados armazenados, e podem analisá-los sob
diversos ângulos.
Comentários: Mais uma vez, vamos comentar cada uma das afirmações acima
e verificar se estão corretas.
[1] Dizer que não é possível combinar operações OLAP é um equívoco! Não
podemos fazer análises mais apuradas se não conseguimos compor as operações
dentro de uma mesma consulta. Sendo assim, a alternativa está incorreta.
[2] Sistemas OLAP tem a característica de serem não-voláteis. A consequência
disso é que os dados são carregados no DW ou na base de dados de análise e
não devem ser alterados. Desta forma, não há sentido algum os usuários
fazerem alterações sobre os dados armazenados. Eles podem sim, fazer análise
sob diversos ângulos. Mesmo assim, a alternativa continua incorreta.
Gabarito: E E.
38. ANO: 2015 BANCA: CESPE ÓRGÃO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO – ANÁLISE DE INFORMAÇÕES.
No que concerne a data mining (mineração de dados) e big data, julgue os
seguintes itens.
[82] O uso prático de data mining envolve o emprego de processos,
ferramentas, técnicas e métodos oriundos da matemática, da estatística e da
computação, inclusive de inteligência artificial.
[83] Quem utiliza o data mining tem como objetivo descobrir, explorar ou
minerar relacionamentos, padrões e vínculos significativos presentes em grandes
massas documentais registradas em arquivos físicos (analógicos) e arquivos
lógicos (digitais).
[84] A finalidade do uso do data mining em uma organização é subsidiar a
produção de afirmações conclusivas acerca do padrão de comportamento exibido
por agentes de interesse dessa organização.
[85] No ambiente organizacional, devido à grande quantidade de dados, não é
recomendado o emprego de data mining para atividades ligadas a marketing.
Comentários: Vamos analisar cada uma das assertivas acima a respeito de
mineração de dados.
[82] Se analisarmos qualquer definição formal de Data Mining, por exemplo:
“Mineração de dados, ou data mining, é o processo de análise de conjuntos de
dados que tem por objetivo a descoberta de padrões interessantes e que possam
representar informações úteis”.
Segundo a teoria Data Mining é uma mistura de diferentes disciplinas:
Estatística, Aprendizado de máquina e Banco de dados. Podemos então verificar
que os termos listados na questão se enquadram perfeitamente dentro do
contexto e das definições existentes. Portanto, alternativa correta.
[83] Vamos analisar mais uma definição de Data Mining para chegarmos a uma
conclusão definitiva a respeito desta questão. “A mineração de dados é um
campo interdisciplinar que reúne técnicas de aprendizado de máquina,
reconhecimento de padrões, estatísticas, banco de dados e visualização para
abordar a questão da extração de informações a partir de grandes bases de
dados”. Vejam que em todas as definições as análises são feitas sobre base de
dados digitais. Usar tecnologia para otimizar e ampliar o horizonte e descobrir
padrões ou informações relevantes. Sendo assim a alternativa está incorreta
pois afirma que é possível fazer análise em arquivos físicos (analógicos).
[84] A princípio você pode ser levado a acreditar que a questão está falsa, pois
Data Mining não vai produzir afirmações conclusivas. Veja, porém, que o
39. ANO: 2015 BANCA: CESPE ÓRGÃO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO - TECNOLOGIA DA INFORMAÇÃO
Julgue os itens subsequentes, a respeito de modelagem dimensional e análise de
requisitos para sistemas analíticos.
[1] Na análise dos dados de um sistema com o apoio de uma ferramenta OLAP,
quando uma informação passa de uma dimensão para outra, inexistindo
hierarquia entre elas, ocorre uma operação drill through.
[2] Entre os requisitos de análise de uma aplicação OLAP inclui-se a capacidade
de tratar dinamicamente a esparsidade das informações para restringir o
cruzamento dimensional de matrizes com células de valor zero.
Comentário: Vamos comentar cada uma das alternativas acima.
[1] Quando tratamos das definições de drill through encontramos na literatura
duas definições:
Drill Throught - ocorre quando o usuário passa de uma informação contida em
uma dimensão para uma outra. Por exemplo: Inicia na dimensão do tempo e no
próximo passo analisa a informação por região
Drill Throught – a operação de drill-through permite que você exiba, em tempo
de consulta, os detalhes dos dados não sumarizados. A partir dos quais uma
célula de uma tabela ou uma seleção de células é sumarizada. Permite as
empresas acesso aos dados que não estão armazenados no servidor OLAP,
fazendo-as acessíveis para os usuários finais das aplicações OLAP. Esses dados
podem vir tanto do DW quanto das bases transacionais.
Vejam que a alternativa apresenta em seu texto uma definição muito
semelhante a primeira definição. A ideia do drill throught é navegar pelo cubo
como ilustrado na figura abaixo. Alternativa correta.
40. ANO: 2015 BANCA: FCC ÓRGÃO: TRT - 3ª REGIÃO (MG) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No modelo de dados multidimensional existem as operações suportadas pelas
ferramentas OLAP para permitir a análise dos dados. Com relação a estas
operações, considere os dados abaixo.
D drill up.
E top-down.
Comentário: Vejam que essa questão pede para definir a operação que passa
do nível de detalhamento Estado para Cidade e em seguida para Bairro da
dimensão localização. Analisando as opções dadas pelo examinador e levando
em conta o nosso conhecimento sobre as operações OLAP podemos marcar
nossa resposta na alternativa A.
Gabarito: A.
Após essa rápida revisão nos termos podemos observar que a FCC usou a
primeira definição e que a nossa resposta se encontra na alternativa D.
Gabarito: D.
provendo uma visão alternativa dos dados. A figura mostra uma operação de
pivot sobre o resultado da operação de slice. Neste caso, observamos uma
rotação em duas dimensões. Contudo o mesmo pode ser feito, também, em um
cubo 3-D.
48. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 4ª REGIÃO (SUL) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA
Um sistema OLAP é um sistema interativo que permite que um analista veja
diferentes resumos de dados multidimensionais. Sobre estes sistemas,
considere:
I. A generalização de uma tabulação cruzada bidimensional para n dimensões
pode ser visualizada como um cubo n-dimensional, chamado cubo de dados.
II. Pode-se obter uma tabulação cruzada sobre os atributos x e y, para um valor
variável de z em uma relação R. Esta operação é chamada de slicing (corte em
pequenos cubos) ou dicing (corte em fatias), particularmente quando os valores
para várias dimensões não são fixos.
II. A operação de mudar as dimensões usadas em uma tabulação cruzada é
chamada de pivoting (pivoteamento).
IV. A operação de passar de dados com detalhamento maior para um
detalhamento menor é chamada de drill down. A operação contrária é chamada
de rollup.
Está correto o que consta APENAS em
A II e IV.
B I e III.
C II e III.
D I e II.
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 68 de 83
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti Aula 05
E III e IV.
Comentário: Vamos então analisar cada uma das alternativas acimas:
I. Nesta alternativa temos um conceito relacionado com análise de dados. Na
tabulação cruzada duas variáveis são tabuladas simultaneamente. Uma
tabulação cruzada de duas dimensões é semelhante a uma planilha Excel, com
ambos os cabeçalhos de linha e colunas como atributos. Quando generalizamos
uma tabulação cruzada para n dimensões, temos um cubo multidimensional. O
cubo pode ter 3, 4 … n dimensões. Desta forma a alternativa I se encontra
correta.
II. Cada tabulação cruzada é uma visão bidimensional em um cubo
multidimensional. Vejam que a tabulação é feita sobre duas variáveis e não
sobre uma como sugere o item II, por isso que a afirmação se encontra
incorreta.
III. Sabemos que para mudar as dimensões do cubo usamos a operação de
pivoteamento. Desta forma, podemos usar essa operação para mudar a face do
cubo ou a tabulação cruzada em análise. Alternativa III, portanto, está correta.
IV. Veja que a alternativa troca a definição de drill down e roll up, estando,
portanto, incorreta.
Após analisar cada uma das alternativas podemos marcar nossa resposta na
alternativa B.
Gabarito: B
49. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 3ª REGIÃO (SP MS) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA (BANCO DE DADOS)
A tecnologia de Data Warehouse oferece suporte às ferramentas OLAP, que
apresentam visões multidimensionais de dados permitindo a análise das
operações de negócio para facilitar a tomada de decisões. Estas ferramentas
suportam algumas operações de maneira a dar aos analistas o poder de
observar os dados de várias maneiras em níveis diferentes. Considere duas
destas operações mostradas nas figuras abaixo.
50. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 9ª REGIÃO (PR) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
As ferramentas OLAP são as aplicações às quais os usuários finais têm acesso
para extrair os dados de suas bases e construir os relatórios capazes de
responder às suas questões gerenciais. As operações realizadas abaixo navegam
nos dados, modificando o nível de granularidade da consulta.
51. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 12ª REGIÃO (SC) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
52. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 15ª REGIÃO (CAMPINAS-
SP) PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
Considere
I. A fonte de dados de todos os cubos OLAP do Service Manager são os data
marts do Operations Manager, enquanto o Configuration Manager fornece dados
em Big Data e CSV, não sendo compatíveis com OLAP.
II. As informações de autenticação sobre a fonte de dados devem ser
armazenadas no SSAS (SQL Server Analysis Services) para se estabelecer o
nível correto de permissões.
III. Os cubos OLAP podem exibir e somar grandes volumes de dados, embora
não forneçam aos usuários acesso pesquisável a quaisquer pontos de dados,
quando os dados precisam ser acumulados, decompostos e analisados, conforme
a necessidade para tratar da maior variedade de questões relevantes à área de
interesse do usuário.
Está correto APENAS o que se afirma em
A III
B II e III
C I e III
D I e II
E II
Comentário: Vamos analisar cada uma das afirmações acima, vamos colocar
em vermelho o que está incorreto:
I. A fonte de dados de todos os cubos OLAP do Service Manager são os data
marts do Operations Manager, enquanto o Configuration Manager fornece dados
em Big Data e CSV, não sendo compatíveis com OLAP. Também podemos
considerar errado o fato da alternativa afirmar que os data marts são a fonte de
dados de todos os cubos OLAP, mas na verdade os data marts são uma parte
mais especializada, que geralmente pertencente a uma área de negócio ou
departamento.
II. As informações de autenticação sobre a fonte de dados devem ser
armazenadas no SSAS (SQL Server Analysis Services) para se estabelecer o
nível correto de permissões. Alternativa correta!
III. Os cubos OLAP podem exibir e somar grandes volumes de dados,
embora não forneçam aos usuários acesso pesquisável a quaisquer
pontos de dados, quando os dados precisam ser acumulados, decompostos e
analisados, conforme a necessidade para tratar da maior variedade de questões
relevantes à área de interesse do usuário. ERRADO
Desta forma, podemos marcar o gabarito na alternativa E.
Gabarito: E.
55. ANO: 2014 BANCA: FCC ÓRGÃO: TRF 3ª REGIÃO (SP MS) PROVA:
ANALISTA JUDICIÁRIO - INFORMÁTICA (BANCO DE DADOS)
Mineração de dados é a investigação de relações e padrões globais que existem
em grandes bancos de dados, mas que estão ocultos no grande volume de
dados. Com base nas funções que executam, há diferentes técnicas para a
mineração de dados, dentre as quais estão:
I. identificar afinidades existentes entre um conjunto de itens em um dado grupo
de registros. Por exemplo: 75% dos envolvidos em processos judiciais ligados a
ataques maliciosos a servidores de dados também estão envolvidos em
processos ligados a roubo de dados sigilosos.
II. identificar sequências que ocorrem em determinados registros. Por exemplo:
32% de pessoas do sexo feminino após ajuizarem uma causa contra o INSS
solicitando nova perícia médica ajuízam uma causa contra o INSS solicitando
ressarcimento monetário.
III. as categorias são definidas antes da análise dos dados. Pode ser utilizada
para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.
Os tipos de técnicas referenciados em I, II e III, respectivamente, são:
A Padrões sequenciais - Redes Neurais - Árvore de decisão
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 75 de 83
Conceitos de OLAP e DATA MINING
Prof. Thiago Rodrigues Cavalcanti Aula 05
B otimização.
C classificação.
D clustering.
E temporização.
Comentário. Vamos voltar para as definições vistas ao longo do texto teórico da
aula. Essa questão vai nos ajudar a fixar conceitos fazendo uma revisão sobre o
assunto. Faremos uma definição de cada um dos termos listados nas
alternativas, exceto de temporização que não faz parte do escopo de mineração.
Associação: Devido a sua grande aplicabilidade, as regras de
associação encontram-se entre um dos mais importantes tipos de
conhecimento que podem ser minerados em bases de dados. Estas regras
representam padrões de relacionamento entre itens de uma base de dados. Uma
de suas típicas aplicações é a análise de transações de compras (market
basket analysis), um processo que examina padrões de compras de
consumidores para determinar produtos que costumam ser adquiridos em
conjunto. Um exemplo de regra de associação, obtida a partir da análise de uma
base de dados real, que registra os produtos adquiridos por famílias cariocas em
suas compras mensais, é dado por: {mini-pizza semi-pronta} Þ {suco de fruta
em pó}. Esta regra de associação indica que as famílias que compram o produto
{mini-pizza semi-pronta} tem maior chance de também adquirir o produto
{suco de fruta em pó}.
Otimização: Esta funcionalidade visa otimizar recursos limitados como tempo,
espaço, dinheiro, matéria-prima etc, buscando maximizar variáveis de resultado
como vendas, lucros, distribuição, economia de espaço etc. Esta funcionalidade
se aproxima dos estudos da área de pesquisa operacional, a qual trata de
problemas de otimização, sempre sujeito a um conjunto de restrições. Como
exemplo, podemos estudar as vendas de um supermercado, no sentido de
otimizar a distribuição de seus produtos em suas gôndolas, visando otimizar a
exposição de um número cada vez maior de produtos.
Classificação: A classificação consiste em examinar uma certa característica
nos dados e atribuir uma classe previamente definida. Dados podem ser
associados a classes ou a conceitos através de um processo de discriminação ou
de caracterização. Discriminação se caracteriza por ter seu resultado obtido
através da atribuição de um valor a um atributo no registro, em função de um
ou mais atributos do mesmo. Por exemplo, em um supermercado podemos
classificar os produtos por tipo como alimentício, vestuário, higiene e limpeza
etc. Já caracterização é a sumarização de um atributo de estudo por uma
característica de um ou mais atributos. Por exemplo, podemos caracterizar um
empregado pelo seu salário anual, identificando faixas da agregação mensal de
seus salários em baixa, média e alta.
Clustering: Esta funcionalidade visa segmentar um conjunto de dados num
número de subgrupos homogêneos ou clustering. Seu objetivo é formar
grupos baseados no princípio de que esses grupos devem ser o mais homogêneo
em si e mais heterogêneo entre si. A diferença fundamental entre a formação de
agrupamento e a classificação é que no agrupamento não existem classes
predefinidas para classificar os registros em estudo. Os registros são agrupados
em função de suas similaridades básicas, ou seja, quando se deseja formar
2 - "... que, por sua vez, permitem a realização de uma melhor análise de
eventos futuros." Ao meu ver, esse "que, por sua vez" diz respeito a "análise
de grandes volumes de dados" e não ao DW. Então substituindo ficaria
assim: "..análise de grandes volumes de dados permitem a realização de
uma melhor análise de eventos futuros"
Veja que está estranho, a análise permite uma melhor análise ... desta forma a
questão encontra-se errada.
Gabarito: C C E.
Considerações Finais
Até a próxima!
Thiago Cavalcanti