Bloco Iii Fundamentos de Banco de Dados

BLOCO III FUNDAMENTOS DE BANCO DE DADOS
5 Pipeline de dados: fundamentos, orquestração, integração, ETL, ELT e

ferramentas. 6 OLAP. 7 Técnicas de modelagem e otimização de bases
de dados multidimensionais. 8 Técnicas para pré-processamento de
dados. 9 Processamento distribuído. 10 Data lake. 11 Conceitos,
arquiteturas, técnicas e tarefas de data mining e data warehouse. 12
Noções de big data: conceito, premissas, análise de dados e aplicações.
Inteligência de negócios (ou Business Intelligence (BI), em inglês)

refere-se ao processo de coleta, organização, análise, compartilhamento
e monitoramento de informações que oferecem suporte a gestão de
negócios. É um conjunto de técnicas e ferramentas para auxiliar na
transformação de dados brutos em informações significativas e
uteis a fim de analisar o negócio.
Um sistema de apoio à decisão (DSS) é um conjunto organizado de
pessoas, procedimentos, software, bancos de dados e dispositivos,
utilizados para ajudar a tomar decisões, que solucionem problemas.
(...)
Ou seja, o BI envolve todo o processo que dá suporte a tomada de
decisão em uma organização
BI é necessário para administrar o negócio, enquanto Business
Analytics são necessários para mudar o negócio.” –
O objetivo da maioria dos sistemas de apoio à decisão é ajudar os

tomadores de decisão durante as fases da solução do problema.
OLAP (online analytical processing). - São ferramentas analíticas que

acessam dados em um Data Warehouse (usando modelagem
dimensional gerando os cubos OLAP).
Ou seja, as etapas do ETL são:
 Extração dos dados nas várias fontes de origem
 Transformação dos dados: etapa onde são realizadas uma série
de regras ou funções aos dados extraídos para derivar os dados a
serem carregados. (Exemplo: Mapear "Masc", "Masculino", "M"
que vem de várias fontes diferentes para o número 1)
 Carga (load) dos dados no destino (geralmente um Data
Warehouse)
Toda modelagem dimensional possuem dois elementos

imprescindíveis: as tabelas Fatos e as tabelas Dimensões. Ambas
são obrigatórias e possuem característica complementares dentro de um
Data Warehouse.
As tabelas dimensões apresentam o contexto descritivo.
As tabelas Fato servem para o armazenamento, medidas (quase
sempre) numéricas associadas a eventos de negócio.
Através da operação roll-up, é possível aumentar o nível de

granularidade, diminuindo o nível de detalhamento. Já na operação drill-
down, ocorre o inverso: diminui o nível de granularidade, aumentando o
nível de detalhamento.
No esquema estrela nós temos uma tabela fato central ligada a várias
tabelas dimensão (daí o nome de esquema "estrela").
Data Warehouse é um deposito de dados orientado por assunto,
integrado, não volátil, variável com o tempo, para apoiar as decisões
gerenciais.
Data warehouse é um local de armazenamento de dados digitais que
tem o objetivo de guardar informações detalhadas de uma organização
em um único repositório.
Data Mart é um depósito de dados que fornece suporte à decisão e é
voltado para áreas especificas da empresa.
Mineração de dados (data mining) é o processo de explorar grandes
quantidades de dados à procura de padrões consistentes, como regras
de associação ou sequências temporais, para detectar
relacionamentos sistemáticos entre variáveis, detectando assim novos
subconjuntos de dados.
CRISP-DM é a abreviação de Cross Industry Standard Process for
Data Mining, que pode ser traduzido como Processo Padrão Inter-
Indústrias para Mineração de Dados. É um modelo de processo
de mineração de dados que descreve abordagens comumente usadas
por especialistas em mineração de dados para atacar problemas.
Extração de conhecimento (também conhecido como processo KDD,
do inglês knowledge-discovery in databases) é um processo de extração
de informações de base de dados, que cria relações de interesse que
não são observadas pelo especialista no assunto, bem como auxilia a
validação de conhecimento extraído.
As principais tarefas usadas no Data Mining são:
 Associações;
 Sequências;
 Classificação e
 Aglomeração (clustering).
CRISP-DM
1. Entender o Negócio: foca em entender o objetivo do projeto a
partir de uma perspectiva de negócios, definindo um plano
preliminar para atingir os objetivos.
2. Entender os Dados: recolhimento de dados e inicio de atividades
para familiarização com os dados, identificando problemas ou
conjuntos interessantes.
3. Preparação dos Dados: construção do conjunto de dados final a
partir dos dados iniciais. Normalmente ocorre várias vezes no
processo.
4. Modelagem: várias técnicas de modelagem são aplicadas, e seus
parâmetros calibrados para otimização. Assim, é comum retornar
à Preparação dos Dados durante essa fase.
5. Avaliação: é construído um modelo que parece ter grande
qualidade de uma perspectiva de análise de dados. No entanto, é
necessário verificar se o modelo atinge os objetivos do negócio.
6. Implantação: o conhecimento adquirido pelo modelo é organizado
e apresentado de uma maneira que o cliente possa utilizar.
Agrupamento/Aglomeração/Clustering é nada mais que encontrar o

padrão que existe entre grupo de dados!
“Um outlier é uma observação que se diferencia tanto das demais
observações que levanta suspeitas de que aquela observação foi gerada
por um mecanismo distinto”
O algoritmo K-médias tem uma variação chamada K-medoid

O K-Medoids é um método de agrupamento relacionado ao k-
médias, mas que usa um objeto da base como protótipo em lugar de
um centroide (usa basicamente o mesmo algoritmo, só difere na
hora de escolher o centroide!!!).

Hadoop é a ferramenta que transformou o mundo do Big Data provendo
um local de armazenamento de dados para quantidades massivas de
dados.
Apache Hive é um software de Data Warehouse desenvolvido em cima
do Apache Hadoop para consulta e análise de dados.
Um projeto relacionado ao Hadoop e mantido pela Apache é o Hive, que

é uma camada de data warehouse que roda em cima do Hadoop e
que utiliza uma linguagem similar à SQL, denominada Hive SQL.

Bloco Iii Fundamentos de Banco de Dados

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bloco Iii Fundamentos de Banco de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

BLOCO III FUNDAMENTOS DE BANCO DE DADOS

5 Pipeline de dados: fundamentos, orquestração, integração, ETL, ELT e

Inteligência de negócios (ou Business Intelligence (BI), em inglês)

O objetivo da maioria dos sistemas de apoio à decisão é ajudar os

OLAP (online analytical processing). - São ferramentas analíticas que

Toda modelagem dimensional possuem dois elementos

Através da operação roll-up, é possível aumentar o nível de

Agrupamento/Aglomeração/Clustering é nada mais que encontrar o

Um projeto relacionado ao Hadoop e mantido pela Apache é o Hive, que

Você também pode gostar