Você está na página 1de 10

Anotações Banco de dados

Item 1 e 2(iAOCP)

- Classificação é o processo de encontrar um modelo que descreva classes diferentes de dados.


As classes são predeterminadas, por exemplo, em uma aplicação bancária, clientes que possuam
um cartão de crédito podem ser classificados como “risco baixo”, “risco justo”, ou “risco alto”. Esse
tipo de atividade é também chamada, em modelagem de dados, de aprendizado
supervisionado
- Por estrutura de um banco de dados, entendemos os tipos de dados, relacionamentos e
restrições que devem suportar os dados.
- A Generalização, em banco de dados, é um processo no qual suprimimos as diferenças entre
os diversos tipos de entidade e destacamos as características comuns e generalizamos em uma
única superclasse, ou seja, é uma síntese conceitual. Já a especialização é um refinamento
conceitual.
- A agregação é um conceito de abstração para a construção de objetos compostos a partir de
seus objetos componentes.
Aidentificação é o processo de abstração pelo qual as classes e os objetos são identificados
univocamente por meio de algum identificador.

- Um banco de dados seria, portanto, um conjunto de relações. Cada


relação pode ser vista como uma tabela , como uma tupla, ou uma coleção de valores
relacionados. Cada coluna é vista
como um atributo, que possui um determinado conjunto de valores possíveis:
o domínio. Um domínio é um conjunto de valores atômicos.

- Banco de dados hierárquico e banco de dados de rede não são BD relacionais(AOCP).

- ISAM é um acrónimo de Indexed Sequential Access Method, ou método de acesso sequencial


indexado. Trata-se de um método de indexação de dados para acesso rápido.

- divergência de impedância ou impedance mismatch - incompatibilidade entre


estruturas(entre estrutura de dados da linguagem de programação e a estrutura de dados
fornecida pelo SGB, por exemplo.)

- Segundo (NAVATHE, 2010), as implicações do uso do banco de dados são:


• Potencial para garantir padrões;
• Redução no tempo de desenvolvimento de aplicações;
• Flexibilidade;
• Disponibilidade para atualizar as informações;
• Economia de escala.

Item 3(iAOCP)

- A função initcap() é ao mesmo tempo simples e útil, e muitos desenvolvedores não a


conhecem. Basicamente, a initcap() recebe como parâmetro uma string e a retorna de volta,
colocando a primeira letra de cada palavra maiúscula, e as demais em letras minúsculas.
- SQL é uma linguagem não procedural ou não algorítimica, ou seja, a sintaxe da linguagem
especifica que resultados se deseja obter.
- Função COALESCE - Avalia os argumentos na ordem e retorna o valor atual da primeira
expressão que não é avaliada como NULL inicialmente. Por exemplo, SELECT
COALESCE(NULL, NULL, 'third_value', 'fourth_value'); retorna o terceiro valor porque esse é o
primeiro valor que não é nulo.
- Os bancos de dados espacial e geográfico controlam objetos em um espaço
multidimensional ao armazenar informações relacionadas a localizações espaciais. Esses
bancos de dados podem ser classificados como banco de dados de projeto(CAD).
- Uma transação é uma unidade atômica de trabalho, que deve ser concluída totalmente ou não
ser feita de forma alguma." (Elmasri, 2011)
- os critérios que frequentemente orientam a escolha de opções do projeto físico de banco de
dados são: Tempo de resposta; Utilização de espaço; Taxa de processamento.

- Inserção em lote
O INSERT INTO SELECT não usa a cláusula "values"
Exemplo : CREATE TABLE venda (ID INT PRIMARY KEY, CLIENTE INT REFERENCES
CLIENTE(ID), DATA date, VALOR NUMERIC(10,2)); /* exemplo de tabela */
INSERT INTO venda (ID, CLIENTE, DATA, VALOR) SELECT ID, CLIENTE, DATA, VALOR FROM
venda_contingente WHERE ID BETWEEN 23951 AND 24178; /* exemplo de inserção em lote */

- superchave na aplicação de uma dependência funcional em uma relação


O subconjunto S da relação R é uma superchave de R, se em qualquer relação válida r(R) todos
os pares de tuplas t1 ≠ t2 implicarem t1[S] ≠ t2[S].

- Em algumas situações, é necessário inspecionar primeiro o código-fonte do programa para


identificar as declarações do banco de dados e extraí-los para o processamento pelo
SGBD. Essa inspeção é realizada por um pré-compilador.(iAOCP).

- Considerando o banco de dados relacionais, para estabelecer uma forma de correspondência


entre diferentes linguagens, é necessário determinar paridade para cada linguagem de
programação.(iAOCP)

- Impedância de correspondência - diferenças entre os modelos de um banco de dados e da


linguagem de programação.(iAOCP)

- Uma visão consiste basicamente de uma tabela derivada de outras tabelas. Visões sobre várias
tabelas não são passíveis de atualizações.(iAOCP)

PL/SQL(Oracle SQL)

- No Oracle Uma subconsulta não pode conter uma cláusula order by, salvo se com conjunto
com um, fecth.(iAOCP,2019)

- O Banco de dados Oracle é composto por uma ou mais unidades lógicas de armazenamento.
Estas unidades lógicas são chamadas de TABLESPACES, basicamente são subdivisões do
Banco de Dados, onde os segmentos (estruturas para armazenamente de dados) semelhantes
são agrupados, facilitando o gerenciamento destes segmentos dentro do Banco de Dados. Pode-
se dizer que as TABLESPACES são grupos lógicos de armazenamento.

SELECT TABLESPACE_NAME FROM DBA_TABLESPACES;

SELECT - Comando para manipulação de dados (DML) SQL para realizar consultas.
TABLESPACE_NAME - Coluna que se deseja obter o valor, no caso o nome da TABLESPACE.
DBA_TABLESPACES - Contem informações sobre as TABLESPACES presentes no banco de
dados.
- ROWNUM – usado apenas no SGDB da Oracle.
- função NVL - converter um valor nulo para um valor numérico real
- USING é uma notação abreviada: recebe uma lista de nomes de colunas, separados por vírgula,
que as tabelas juntadas devem possuir em comum(condição de junção seja homônimos), e
forma a condição de junção especificando a igualdade de cada par destas colunas. Trata um
registro por vez e deve estar embutida em uma linguagem de programação hospedeira.
(IAOCP,2020)
- LTRIM - Esta função vai retirar da primeira string o valor definido em valor_string_2, isso da
esquerda para a direita.
Exemplo select LTRIM(‘fazendo Teste fazendo’, ‘fazendo’) from dual; ao executar este comando
teremos o seguinte retorno “Teste fazendo” .
Exemplo 2
SELECT LTRIM (‘testeTRIMteste’, ‘tes’):
Primeiro encontra o 'tes' e retira, depois encontra o 'te' que é parte do tes, retira também. Teremos
o seguinte retorno “TRIMteste”.

- Tipos objetos no pl/sql : Eles escondem dados e operações ; Variáveis estáticas não estão
disponíveis na PL/SQL.(iAOCP,2019).

- Cláusula limit - Exemplo : LIMIT 0,3


"0" - índice inicial
"3" - número de resultados que queremos.

- O valor NULL é ignorada na função SUM no SGBD da Oracle.(entendimento da questão da


AOCP de 2020).

- Specification e body são duas partes que compõe um package no pl/sql.

- O PL/SQL Table é um recurso que faz uso de dados intrínsecos por meio de vetores
homogêneos. O comando ‘type’ é o responsável por criar essa estrutura.(iAOCP).

- criar novos tipos de objetos usando a linguagem PL/SQL

CREATE [OR REPLACE] TYPE

<type_name> AS OBJECT (…);

- “CONSTRAINT NomeSobrenome UNIQUE (PrimeiroNome, UltimoNome);”

O comando cria uma restrição para que a combinação de nome e sobrenome de uma pessoa seja
única.

- ORDER BY em subqueries:
Oracle: só é permitido junto com o "FETCH", caso contrário gera erro

- Operações SET, em SQL, são um conjunto de operações realizadas sobre tabelas que se
assemelham às operações realizadas sobre conjuntos na teoria dos conjuntos. exemplos: MINUS,
INTERSECT, UNION, EXCEPT.

- Função NVL - converter um valor nulo para um valor numérico real.

- Variáveis estáticas não estão disponíveis na PL/SQL.(iAOCP).

-comando que permite a construção de uma estrutura de repetição que varre uma tabela,
linha a linha e coluna a coluna, possibilitando, assim, a manipulação de todos os dados de uma
determinada tabela.
Exemplo de comando: cursor c_empregado (pdepnum number, pcargo varchar2) is select
empnum, enome from emp where depnum = pdepnum and cargo > pcargo;

- Exemplo código pl/sql: a saída do código apresenta todos registros da tabela projetando os
atributos “id” e “value”.(iAOCP).

- o símbolo “:” é conhecido como associação em PL/SQL.(iAOCP).

- Variáveis bind no Oracle são nomes precedidos por dois-pontos ( :nome).

- Ao criar um database link é possível utilizar e referenciar tabelas e visões do outro banco de
dados, acrescentando ao final do nome destes objetos @nome_do_dblink.

- START - executa um script no SQL PLUS.

- A função Oracle / PLSQL ROUND retorna um número arredondado para um determinado


número de casas decimais.
Ex1: ROUND(125.315) -> Resposta: 125
EX2: ROUND(125.315,0) -> Resposta: 125

- A cláusula NOCOPY informa ao mecanismo PL / SQL para passar a variável por referência,
evitando assim o custo de copiar a variável no final do procedimento.

- Identificadores válidos PL/SQL:


Os identificadores não citados podem conter apenas caracteres alfanuméricos do conjunto de
caracteres do banco de dados e o sublinhado (_), o cifrão ($) e o sinal de libra (#). Os links de
banco de dados também podem conter pontos (.) E sinais de arroba (@). A Oracle o
desencoraja fortemente de usar $ e # em identificadores não citados.

- Nas versões anteriores ao Oracle 11g, para criarmos uma tabela somente leitura teríamos que
usar alguns métodos, mas agora podemos utilizar a facilidade do comando ALTER TABLE que foi
aprimorado no Oracle 11g para permitir alterar o estado de uma tabela do modo READ WRITE
para o modo READ ONLY e vice-versa. Exemplo: ALTER TABLE departamentos READ ONLY;

- Join externa
Uma join externa recupera uma linha mesmo quando uma de suas colunas contém um valor
nulo.O operador de join externa proprietário do Oracle é um sinal de adição entre parênteres (+).
Se obteria o mesmo resultado usando left outer join.
- Função SUBSTR no PL/SQL
Quando a posição inicial é 0 (zero), é tratada como 1.
Quando a posição é positiva, a função conta desde o início da string para encontrar o primeiro
caractere.
Quando a posição é negativa, a função conta para trás a partir do fim da string.
Ex: PL/SQL SELECT SUBSTR ('Tribunal Regional Federal da 5ª Região',1,8) FROM DUAL ->
resultado : Tribunal
Ex.: SHOW SUBSTR('abcdefg',3,4) -> Resultado: cdef
Ex.: SHOW SUBSTR('abcdefg',-5,4) -> Resultado: cdef

- o Oracle e outros SGBDs oferecem essas funções nativamente em suas extensões à linguagem
SQL. No PL/SQL, por exemplo, usamos as funções FLOOR(number) para representar a função
piso e CEIL para executar a função teto. Assim, temos:

CEIL(32.65) à Result: 33 ; CEIL(32.1) à Result: 33 ; CEIL(32) à Result: 32

FLOOR(5.9) à Result: 5 ; FLOOR(34.29) à Result: 34; FLOOR(-5.9) à Result: -6

- O comando que executa a geração de explicações sobre um comando SQL no PL/SQL é o :


EXPLAIN PLAN FOR <comando SQL>;

- ROWNUM(só existe no Oracle)


Através de uma pseudo-coluna chamada ROWNUM, o Oracle numera todos os registros de uma
consulta. Para limitá-la, então, basta condicionar essa pseudo-coluna.

Por exemplo:

SELECT * FROM emp WHERE rownum < 10;

Essa query retornará todos os registros de emp cujo rownum seja menor que 10, ou seja, os
primeiros registros (lembrando que a coluna rownum começa a numerar do 1, e não do 0 como as
linguagens de programação)

- Funções com suporte a expressões regulares no Oracle 11g:

REGEXP_INSTR() - Pesquisa um padrão de expressão regular em uma sequência e retorna um


inteiro que indica a posição inicial ou final da subsequência correspondente. Se nenhuma
correspondência for encontrada, a função retornará 0.
REGEXP_REPLACE() – O uso dessa função é para procurar um padrão e substituí-lo por um
string dada
REGEXP_SUBSTR() – Retorna parte de uma string com recursos avançados.
REGEXP_COUNT() –Novidade do Oracle 11G - Usado para obter a quantidade de vezes que
uma expressão regular ocorre em uma string.
REGEXP_LIKE()-Realiza uma busca da expressão regular definida no parâmetro padrão.

- Modo archivelog - ORACLE 11G


Vantagens em manter o ambiente em modo archive:
• Possibilita a execução de hot backups, que são os backups realizados com o ambiente
em operação.
• O backup database mais os archives também garantem a recuperação de todas as
transações que sofreram commit.
• É possível criar um database standby que é continuamente atualizado através da
aplicação dos archives.
- DBA_TABLESPACES descreve todos os espaços de tabela no banco de dados.
USER_TABLESPACES descreve os espaços de tabela acessíveis ao usuário atual. Esta
visualização não exibe a PLUGGED_IN coluna.

- Em Oracle, quais cuidados devem ser tomados ao armazenar a data (7/ maio/1970) no banco
de dados?
Utiliza a função TO_DATE, que recebe uma data (em formato string) e o formato (outra string) que
especifica o formato em que a data está, devolvendo uma data formatada de acordo com o
formato especificado.

- RMAN é um utilitário do SGBD Oracle 11g, projetado para backup e recuperação dinâmica de
arquivos de banco de dados Oracle. Uma de suas ferramentas é o Block Change Tracking que
realiza a otimização dos arquivos dos backups incrementais, utilizando um arquivo de
rastreamento para manter todos os registros dos blocks que foram alterados dentro de cada um
dos datafile desde a realização do último backup.(iAOCP).

- initcap() recebe como parâmetro uma string e a retorna de volta, colocando a primeira letra de
cada palavra maiúscula, e as demais em letras minúsculas.(iAOCP).

- O comando MERGE:

Realiza operações de inserção, atualização ou exclusão em uma tabela de destino com base nos
resultados da junção com a tabela de origem. Por exemplo, você pode sincronizar duas tabelas
inserindo, atualizando ou excluindo linhas em uma tabela com base nas diferenças encontradas
na outra tabela.

Sintaxe do comando

MERGE [hints] INTO [nome_tabela]


USING [nome_tabela_visão_ou_consulta]
ON ([condição])
WHEN MATCHED THEN [cláusula_de_update]
DELETE [cláusula_where]
WHEN NOT MATCHED THEN [cláusula_de_insert]
[LOG ERRORS [cláusula_de_log_erros][REJECT LIMIT [inteiro | ilimitado]];

Transações

- Operações em Arquivos Seqüenciais


A maneira usual de processar inserções de registros em um arquivo sequencial consiste em
montar um arquivo de transações contendo os registros a serem inseridos, ordenado pela
mesma chave de ordenação do Arquivo Principal. Os arquivos Principal e de Transação são
então intercalados através de Merge, gerando um Arquivo Principal Atualizado. Este procedimento
é adotado, porque a inserção de um registro isolado apresenta um custo proibitivo, pois todos
aqueles registros com chaves superiores ao inserido seriam necessariamente deslocados de sua
posição, o que é inviável em se tratando de arquivos armazenados em um meio externo. O
arquivo de Transação pode ser usado como uma extensão do Arquivo Principal até assumir um
tamanho que justifique a efetivação da operação de intercalação.

- Plano de Execução Serial: as operações das transações são executadas consecutivamente;

Plano de Execução Seriável (serializável): as transações são executadas de modo


intercaladas.
-Algumas das técnicas de escalonamento mencionadas por Abraham Silberschatz são:
Escalonamento Serial
Em um cenário de um banco de dados onde ocorrem várias transações, um schedule serial
consistiria em uma sequência de instruções em que as instruções pertencentes de uma única
transação são executadas sequencialmente sem nenhuma outra sendo executada no mesmo
momento.
Escalonamento Serializável
Ocorre quando dois schedules funcionam como schedules seriais, não havendo sobreposição
temporal da execução. Apenas um parte consistente do schedule é executada naquele momento.
Escalonamento Recuperável
O schedule recuperável é aquele em que, para cada par de transações Ti e Tj tal que Tj leia um
item de dados previamente escrito por Ti, a operação commit de Ti apareça antes da operação
commit de Tj. Há uma garantia de consistência na leitura/gravação da informação de Tj.

Os schedules seriais são necessariamente recuperáveis uma vez que há uma garantia de que
apenas aquele conjunto de instruções está sendo executado no momento, não havendo
concorrência.

- MVCC (Controle de Concorrência de Versão Múltipla) para controlar a concorrência entre as


transações - um snapshot dos dados é gerado no início da transação, possibilitando uma
redução no número dos bloqueios de leitura e, consequentemente, melhorando o
desempenho.

- Leitura suja(transações) - Suponha que uma transação T1 atualiza determinado registro de


uma tabela e, nesse meio tempo, outra transação T2 utiliza esse mesmo registro para suas
operações. Contudo a transação T1 falha e é desfeita pelo SGBD.

Arquitetura OLAP

- Uma dimensão pode ser caracterizado por uma unidade de análise que agrupa dados de um
negócio relacionado.
Um cubo pode ser caracterizada por uma estrutura que armazena os dados de negócio.
Membro é um subconjunto de uma dimensão
Medida é uma dimensão especial utilizada para realizar comparações
A operação de ROTATION(ou PIVOT) permite a visualização dos dados sob uma nova
perspectiva.(iAOCP)

- O ETL (do inglês Extraction, Transform and Load) é um procedimento realizado em dados
provenientes de diferentes fontes (bancos transacionais, usualmente) antes de serem carregados
nos Data Warehouses e Data Marts. Como o próprio nome indica, é dividido em três fases:
Extrair: aqui os dados são extraídos das diversas fontes;
Transformar: muitos autores incluem dentro desta etapa o processo de limpeza e preparação.
Aqui são tratadas inconsistências e os dados são padronizados;
Carregar: nesta etapa, os dados são carregados nos repositórios dos Data Warehouses e Data
Marts..

- Em BI, os grafos são úteis para modelar relacionamentos em um processo de negócios.

- Portal de BA(Business Analytics Portal) e suas ferramentas - Fornecer informações aos


tomadores de decisão em nível operacional.

- Os cinco “vês” de um big data - Velocidade, volume, veracidade, variedade, valor.


- Data analytics é a análise de um grande conjunto de dados, através de um processo de
inspeção, limpeza, transformação e modelagem de dados, com o objetivo de descobrir
informações úteis, que apoiam a tomada de decisão..(iAOCP)

- Streaming de Dados é a grande quantidade dados gerados, em tempo real e com fluxo
contínuo, todos os dias.
Big Data é o processo de coleta, analise e apresentação desta imensidão de dados gerados, na
mesma velocidade em que são gerados.

- Um programa ou algoritmo criado com o intuito de executar a tarefa de classificação é


denominado classificador.

- Classificação é um dos métodos supervisionados mais comuns para a aplicação da mineração


de dados que é voltado às tarefas frequentes do dia a dia.

- O Oracle OLAP usa um workspace analítico no banco de dados para executar uma análise
OLAP. Ele armazena dados no banco de dados como cubos multidimensionais, que são
projetados para garantir rapidez na atualização e consulta incrementais. Os cubos são
organizados por dimensões, que atuam como chaves para os dados dos fatos e definem a
estrutura básica do cubo.

- Stepping down - Significa que eu vou descer na hierarquia, tendo uma visão mais detalhada
e diminuição da granularidade(Drill-down)

climbing up - Significa que eu vou subir na hierarquia, tendo uma visão menos detalhada e
aumento na granularidade(Roll-up)

- ROLAP --> BD relacional

MOLAP --> BD multidimensional

HOLAP --> ROLAP + MOLAP

DOLAP --> Ferramenta desktop para consultas

WOLAP --> Ferramenta web para consultas

SOLAP --> Integração entre ferramenta que utiliza informações geográficas( como o GIS) e OLAP

GIS --> Ferramenta de BD que permite trabalhar com informações geográficas.

- 12 Regras do OLAP(Codd)

1- Conceito de visão multidimensional;


2-Transparência;
3-Acessibilidade;
4-Performance consistente de relatório;
5-Arquitetura cliente/servidor;
6-Dimensionamento genérico;
7-Tratamento dinâmico de matrizes esparsas;
8-Suporte a multiusuários;
9-Operações de cruzamento dimensional irrestritas;
10-Manipulação de dados intuitiva;
11-Relatórios flexíveis;
12-Níveis de dimensões e agregações ilimitados.

-
BANCO DE DADOS DISTRIBUÍDOS

- As três regras impostas durante a fragmentação de relações em bancos de dados distribuídos


que asseguram que o banco de dados não sofrerá problemas de mudança de semântica, são
completeza, disjunção e reconstrução.

- Autonomia refere-se à distribuição de controle, não de dados, e indica até que grau o Sistema
Gerenciador de Banco de Dados (SGBDs) individuais pode operar de forma independente.

- No MapReduce, modelo de processamento de dados paralelo para processamento e análise de


grandes volumes de dados, os programas são escritos em um estilo de programação funcional, no
qual as funções Map e Reduce devem ser criadas.

-.O RPC (Remote Procedure Call) define um protocolo para execução remota de procedures em
computadores ligados em rede. O protocolo RPC pode ser implementado sobre diferentes
protocolos de transporte. Não cabe ao RPC especificar como a mensagem é enviada de um
processo para outro, mas somente especificá-la (com XDR) e interpretá-la. A sua implementação
depende, portanto, de sobre qual protocolo de transporte vai operar. Sobre TCP não é necessário
preocupar-se com time-outs, retransmissões, duplicatas. Sobre UDP é necessário preocupar-se
com time-outs, retransmissões, duplicatas.

- Entre as características dos bancos de dados distribuídos, temos:


• distribuição física geográfica: os dados estão dispersos em vários BDs, geralmente
situados em localidades distintas;
• administração separada: apesar de pertencerem ao mesmo sistema distribuído, cada BD
tem autonomia local sobre os dados de sua responsabilidade;
• intercomunicação menor: as transações remotas podem ser lentas por envolver a troca
de mensagens via rede. Esta desvantagem pode ser amenizada pela redução na
quantidade de mensagens trocadas pelo SGBD distribuído.

- Existem 2 tipos de replicação transacional.


A Transactional Publication (padrão), que somente envia dados para os assinantes.
A Transactional Publication with updatable subscriptions, essa permite que você possa
realizar alterações nas tabelas replicadas também nos assinantes, e enviar esses dados para o
database publicador.

- O processamento paralelo é uma das formas de se obter melhor desempenho de um OLAP,


a exemplo das arquiteturas de SMP (multiprocessador simétrico), cluster e processamento
maciçamente paralelo (MPP).

- Redundância de dados: a redundância controlada e a redundância não controlada.


A redundância controlada acontece quando o software tem conhecimento da múltipla
representação da informação e garante a sincronia entre as diversas representações. Para o
usuário, tudo funciona como se o sistema utilizasse apenas uma base de dados. Esse tipo de
redundância é geralmente utilizado para possibilitar uma maior performance ao sistema ou
aumentar sua confiabilidade.
A redundância não controlada acontece quando a responsabilidade pela manutenção e
sincronia das diversas representações de uma mesma informação fica a cargo do usuário e não
do software.

BIG DATA(Não explícito no edital CMT)


- Hadoop é um banco de dados(iAOCP disse em uma questão que não é banco de dados), o
Spark é uma ferramenta de Big Data (Ambos são estruturas de Big Data).
Hadoop é uma plataforma de software de código aberto para o armazenamento e
processamento distribuído de grandes conjuntos de dados, utilizando clusters de computadores
com hardware commodity
Spark é uma ferramenta para a compreensão dos dados.

- Os principais elementos (em termos de importancia em provas, sobretudo)do Hadoop sao o


MapReduce e HDFS (Hadoop Distributed File System)

MapReduce realiza o processamento dos dados. É dividido em duas fases: Map e Reduce.
Map faz o mapeamento, o processamento primário dos dados de entrada (imputs). Reduce gera os
resultados desse processamento, as saídas (outputs).
Componentes do MapReduce
Jobtraker - gerenciador do processamento. Distribui, organiza as tarefas (tasks) entre as diversas
máquinas. Por ex, direciona algumas para a funçao de map e outras para a de reduce. É único para
cada aplicaçao (MASTER)
Tasktraker - executa as tarefas repassadas pelo Jobtracker. Instanciado para cada máquina
(SLAVE).

HDFS - Responsável pelo armazenamento de dados, tendo como princípio o acrônimo WORM
(Write-once, Read Many - "escrita uma vez, múltiplas leituras" - escrita controlada, leitura livre)
Componentes HDFS
NameNode - Gerencia o armazenamento de dados. É único para cada aplicaçao (MASTER)
SecondaryNameNode - Auxilia o NameNode na funçao de gestor do armazenamento. Ou ainda,
funciona como alternativa àquele. É único para cada aplicaçao (MASTER)
Datanode - É quem executa efetivamente as tarefas de armazenamento. Instanciado para cada
máquina (SLAVE).

Mineração de dados

- As técnicas para descobrimento de conhecimento em Mineração de dados:


Regras de associação; Hierarquias de classificação; Padrões sequenciais; Padrões em séries
temporais; Categorização e segmentação

Você também pode gostar