Você está na página 1de 57

Aula 00

Banco de Dados Avanados para Concursos - Curso Regular


Professor: Thiago Rodrigues Cavalcanti

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

AULA 00: Armazenamento de Dados e Indexao


Sumrio
Apresentao do professor ........................................................................................................... 1
Motivao para o curso .................................................................................................................. 2
Cronograma ........................................................................................................................................ 3
Armazenamento de Dados. .......................................................................................................... 3
1.
Estrutura de arquivos ..................................................................................................... 3
1.1.
Dispositivos de armazenamento secundrio ..................................................... 6
1.2.
Arquivos no disco ......................................................................................................... 9
1.3.
Organizao de arquivos ......................................................................................... 14
1.4.
RAID Redundant Array of Independent Disks ............................................. 20
1.4.1.
Nveis de RAID......................................................................................................... 21
1.4.2.
Nested RAID ............................................................................................................. 23
1.5.
Novos sistemas de armazenamento ................................................................... 24
Estrutura de indexao para arquivo ..................................................................................... 26
2.
ndices ................................................................................................................................ 26
3.
ndices multinveis ......................................................................................................... 31
4.
Outros tipos de ndices................................................................................................. 32
Questes Comentadas.................................................................................................................. 35
Consideraes finais ...................................................................................................................... 55
Referncias ....................................................................................................................................... 55

Apresentao do professor
Ol senhoras e senhores! Hoje comeamos mais um curso relacionado a
Banco de dados Avanados. um prazer imenso fazer parte desta equipe de
professores do Estratgia Concursos e ter a oportunidade de apresentar um
pouco do meu conhecimento e experincia em concursos pblicos! Gostaria,
antes de comear de fato o contedo terico desta aula, de me apresentar de
forma rpida. Creio que seja importante para nos conhecermos.
Meu nome Thiago, sou casado, tenho um filho de quatro anos. Sou
cristo. Frequento a IPN Igreja Presbiteriana Nacional. Sou formado em
Cincia da Computao pela UFPE. Tenho mestrado em engenharia de software
na mesma faculdade. Frequento academia para manter a forma, mas meu hobby
mesmo pedalar! Decidi vender o carro e viver num desafio intermodal de
transporte. Vou para o trabalho de bike sempre que possvel!
16712855225

Onde eu trabalho? No Banco Central do Brasil! Fruto de uma trajetria de


dois anos de estudos dirios. Aposentei as canetas em 2010. Trabalho com
anlise e modelagem de dados. J passei pelo desenvolvimento de software,
mas, desde 2014, estou em uma nova rea dentro do Departamento de
Informtica (Deinf). Depois eu posso contar como est estruturado o Deinf de
uma das principais autarquias da administrao pblica federal.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

1 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Minha mais recente experincia com dados, seja na administrao ou
modelagem, parte de uma estratgia profissional de alinhar meu trabalho
dirio como servidor pblico com minha carreira paralela de professor de Banco
de Dados (BD) e Bussiness Inteligence (BI). A ideia conseguir me especializar
cada vez mais no tema, nesta nova carreira dentro da TI, que o mercado est
denominando de cientista dos dados.
Entrei no universo de concurso h alguns anos. Desde 2012 tenho me
dedicado especificamente a rea de BD e BI. Tenho experincia em cursos
presencias aqui em Braslia e em diversas partes do Brasil, bem como tenho
gravado sistematicamente aulas on-line. com essa bagagem que eu me
apresento aos senhores como professor. A ideia desenvolver um material
completo, recheado de questes e com dicas exclusivas para ajudar voc no seu
objetivo: ser aprovado!

Motivao para o curso


Esse curso vai ser desenvolvido para lapidar e aprimorar os seus
conhecimentos em banco de dados. A ideia construir a base terica dos
contedos avanados de banco de dados que geralmente so cobrados pelas
mais diversas bancas. Neste contexto, optamos por selecionar os assuntos de
maior relevncia para concursos pblicos.
Teremos muito trabalho pela frente. Por isso, montamos um curso terico
em PDF, baseado nas mais diversas bancas, e apresentando o contedo
observando as variadas formas de cobrana do mesmo pelas bancas
examinadoras.
Teremos ainda videoaulas que apresentam o contedo terico de forma
detalhada para algumas partes da matria. Acredito que todos os vdeos
referentes s aulas deste curso devero estar disponveis at o final de 2016.
Nosso objetivo garantir que voc tenha capacidade e conhecimento para ser
aprovado. Logo, todo contedo necessrio para a prova estar presente nos
PDFs e ser complementado pelas videoaulas.
16712855225

Vamos juntos?

Observao importante: este curso protegido por direitos


autorais (copyright), nos termos da Lei 9.610/98, que altera,
atualiza e consolida a legislao sobre direitos autorais e d
outras providncias.
Grupos de rateio e pirataria so clandestinos, violam a lei e
prejudicam os professores que elaboram os cursos. Valorize o
trabalho de nossa equipe adquirindo os cursos honestamente
atravs do site Estratgia Concursos ;-)
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

2 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Observao importante II: todo o contedo deste curso


encontra-se completo em nossos textos escritos. As
videoaulas, caso existam, visam reforar o aprendizado,
especialmente para aqueles que possuem maior facilidade de
aprendizado com vdeos e/ou querem ter mais uma opo
para o aprendizado.

Cronograma
Para proporcionar uma viso geral do assunto e fornecer uma linha de ao
para o estudo da matria dividimos o curso em cinco aulas, sendo esta a aula
00. A aula engloba a parte de estruturas de arquivos e mtodos de acesso.
Falaremos ainda sobre indexao de banco de dados. As demais aulas, seguindo
a ementa do curso, so apresentadas abaixo e esto distribudas como se segue:
EMENTA DO CURSO: Armazenamento de dados e indexao, Processamento e
otimizao de consulta, Banco de dados distribudos e paralelos, Segurana em
banco de dados e Noes e georreferenciamento e banco de dados orientado a
objetos
Pois bem, e como sero distribudas as nossas aulas?
Aula 00 Armazenamento de dados e indexao
Aula 01 - Processamento e otimizao de consulta
Aula 02 Banco de dados distribudos e paralelos
Aula 03 Segurana em banco de dados
Aula 04 - Noes de georreferenciamento e banco de dados orientado a
objetos
Definido o cronograma, vamos partir para o contedo da nossa aula
demonstrativa.
16712855225

Armazenamento de Dados.
O assunto da nossa aula de hoje trata dos aspectos fsicos do banco de
dados. Nossa ementa ter como foco a organizao de arquivos e mtodos de
acesso. Outra forma de descrever esse mesmo assunto usada por alguns autores
relacionar a estruturas de arquivo, indexao e hashing. Veremos como a
estrutura fsica efetivamente contribui para o desempenho de um sistema de
banco de dados.

1. Estrutura de arquivos
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

3 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Quando estudamos estrutura de arquivos, tratamos da organizao dos
bancos de dados em locais de armazenamento e as tcnicas para acess-los de
modo eficiente usando diversos algoritmos, alguns dos quais exigindo estruturas
auxiliares chamadas ndices. Se relembramos da arquitetura ANSI/SPARC,
estamos falando do nvel interno ou representao fsica dos dados.

O armazenamento em diversas mdias nos leva a primeira classificao


relevante dentro do assunto. As estruturas de armazenamento podem ser
divididas em primrias, secundrias e tercirias. O nvel primrio pode ser
operado diretamente pela CPU, essa caracterstica faz com que ele oferea
acesso rpido aos dados, contudo sua capacidade de armazenamento limitada
e so mais caras em relao as demais.
Os nveis secundrio e tercirio de armazenamento esto associados a
memrias no volteis que no so operadas diretamente pela CPU. Por no
poderem ser manipuladas diretamente pela CPU, existe uma necessidade de
transferncia das informaes para a memria primria. Esta operao um
procedimento demorado quando comparado com as demais etapas do
processamento de consultas. Podemos listar como exemplo de armazenamento
secundrio os discos rgidos e de tercirio as fitas removveis.
possvel ainda, separar os dispositivos fsicos de armazenamento em
voltil ou no voltil. Esse conceito se refere ao fato da informao ser ou no
perdida caso falte energia no sistema. A memria RAM, sigla para Random
Access Memory, um tipo de memria voltil que serve para rodar aplicaes
depois que o computador j est ligado, e cujas informaes so perdidas depois
do desligamento da mquina.
16712855225

Na figura a seguir voc por observar uma hierarquia de armazenamento, os


trs primeiros nveis da pirmide tratam de armazenamento temporrio. O
quarto nvel mostra os dispositivos de armazenamento permanente. Falaremos
um pouco sobre alguns dispositivos de acesso com armazenamento temporrio
logo adiante.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

4 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Existem dois tipos de memria RAM que devem ser consideradas no nosso
estudo: DRAM e SRAM. DRAM a sigla em ingls para Dynamic Random Access
Memory, ou Memria de Acesso Randmico Dinmica. Isso significa que ela
precisa que a informao seja atualizada o tempo todo para que permanea
armazenada. Com isso, esse tipo de RAM gasta mais energia se comparado
com a SRAM.
A Memria de Acesso Randmico Esttica (SRAM) consegue manter os
bytes mesmo sem atualizao contnua, os dados so perdidos somente aps
a interrupo da fonte de energia. A memria RAM esttica mais econmica,
alm de entregar uma performance melhor. Vejamos como esse assunto j foi
cobrado em provas anteriores.

1.

ANO: 2015 BANCA: CONSULPLAN RGO: HOB PROVA: TCNICO


ADMINISTRATIVO - INFORMTICA

A memria RAM possui como caractersticas, EXCETO:


16712855225

A Armazena os dados que o processador utiliza para trabalhar.


B uma memria no voltil, pois armazena seus dados temporariamente.
C SRAM e DRAM so tipos de tecnologia de memria RAM muito utilizados.
D A quantidade de memria influencia diretamente na capacidade de trabalho do
computador.
Comentrios: Vejam que acabamos de expor a caractersticas de volatilidade
das memrias RAM, seja SRAM ou DRAM. Desta forma podemos concluir que
existe um erro no texto na alternativa B. Como a questo pede a assertiva que
no representa uma caracterstica da memria, essa a nossa resposta.
Gabarito: B

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

5 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Quando passamos a analisar as memrias no volteis, o primeiro tipo que
devemos analisar seria as ROM/BIOS. ROM significa Read-Only Memory uma
memria somente de leitura, e est, principalmente, localizada no chip
responsvel pela iniciao do sistema. l que as informaes bsicas do
computador ficam armazenadas, portanto no so afetadas quando o dispositivo
desligado. Lembra da tela azul que aparece quando apertamos F8 na
inicializao do computador?

Outros dispositivos de armazenamento permanente so os discos


removveis, os dispositivos de armazenamento em rede e os discos rgidos. A
organizao dos dados dentro dos discos so de extrema importncia dentro do
assunto. Dedicaremos as prximas linhas para tratar sobre como os arquivos so
organizados no disco.

1.1. Dispositivos de armazenamento


secundrio
Ao definir como os arquivos so organizados nos disco, definimos por
tabela como podemos acess-los. Outro ponto que temos que ter em mente: Os
dados so transferidos da memria secundria para a primria, onde a CPU pode
manipular os dados e, em seguida, gravados de volta na memria secundria.
16712855225

Uma organizao secundria ou estrutura de acesso auxiliar permite acesso


mais eficiente aos registros do arquivo com base em campos alternativos, alm
dos que foram usados para a organizao de arquivo primrio. A ideia da
maioria desses dispositivos auxiliares se concentra na criao de ndices,
falaremos sobre eles mais adiante.
Segundo Navathe: importante estudar e entender as propriedades e as
caractersticas dos discos magnticos e o modo como os arquivos podem ser
organizados neles a fim de projetar banco de dados eficazes, com desempenho

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

6 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
aceitvel. Independente da sua capacidade, todos os discos so feitos de um
material magntico modelado como um disco circular fino, ver figura abaixo:

Um disco pode ter apenas uma das suas faces uteis conforme podemos
observar na parte (a) da figura acima. Outra possibilidade ter as duas faces
com capacidade de leitura e gravao. Podemos ainda ter um disk pack com
vrios discos em apenas um dispositivo como exemplificado na parte (b) da
figura.
A figura apresenta ainda os termos tcnicos que descrevem uma estrutura
de disco. Por estarem em ingls vamos aproveitar as prximas linhas para
descrever os termos aproveitando para expor a devida palavra em portugus.
Track (trilha) um crculo de pequena largura. Existem vrios em cada
uma das faces de um disco. Em disk packs, as trilhas de mesmo dimetro so
denominadas cilindros. Dados armazenados no mesmo cilindro so recuperados
mais rapidamente. Cada trilha dividida em blocos ou setores.
Actuator (acionador) - o responsvel por mover o brao sob a
superfcie dos pratos, e assim permitir que as cabeas faam o seu trabalho.
Para que a movimentao ocorra, o atuador contm em seu interior uma bobina
que induzida por ims.
16712855225

Arm (brao) - Se h um componente dos discos rgidos considerado o


Tendo de Aquiles, este o brao de acesso. O brao deve mover muito rpida e
corretamente atravs de distncias relativamente longas. Alm disso, o
movimento do brao de acesso no contnuo deve acelerar rapidamente ao
se aproximar do cilindro desejado e ento desacelerar rapidamente para evitar
passar do ponto. Consequentemente, o brao de acesso deve ser forte (para
suportar as foras violentas provocadas pela necessidade de movimentos
rpidos) e leve ao mesmo tempo (para que haja menor massa para
acelerar/desacelerar).
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

7 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Read/write head (cabea de leitura/gravao) - As cabeas de
leitura/gravao do disco rgido funcionam somente quando os pratos do disco
sobre os quais elas atuam esto rodando. Como o movimento da mdia sob as
cabeas que permite acessar ou ler os dados, o tempo que leva para a mdia
contendo o setor desejado passar completamente por baixo da cabea o nico
determinante da contribuio da cabea para o tempo total de acesso. A mdia
de 0,0086 milissegundos para um drive de 10.000 RPM com 700 setores por
faixa.
Spindle (eixo) - discos ficam posicionados sob o eixo, que responsvel
por faz-los girar (Disk Rotation)
OK! J sabemos como o disco funcionam e quais os elementos fsicos
principais compe a estrutura de um HD. Agora vamos entender como os pratos
so organizados. Cada um dos pratos presentes em um disk pack devem ser
divididos em partes denominadas blocos e setores. Esses geralmente so
definidos durante a formatao do disco.
Um setor um espao fsico em um disco formatado que contm
informaes. Quando um disco formatado, as faixas so definidas (anis
concntricos a partir do interior para o exterior do prato de disco). Cada faixa
dividida em fatias, conhecida como setores. Os setores podem se estender por
um ngulo fixo ou manter uma densidade de gravao uniforme veja a figura
a seguir. Em discos rgidos e disquetes, cada setor pode armazenar 512 bytes
de dados.

16712855225

Um bloco, por outro lado, um grupo de setores que o sistema


operacional pode enderear. Um bloco pode ter um ou vrios setores (2,4,8, ou
at 16). Quanto maior a unidade, mais setores estaro presentes em um nico
bloco. Voc define o tamanho do bloco durante a formatao. Um fator que
influencia o tamanho do buffer do disco.
E qual a utilidade desse buffer? Imagine que o processador est
trabalhando na execuo de uma determinada tarefe, ao mesmo tempo o
dispositivo de entrada e sada pode ler para o buffer os prximos blocos de
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

8 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
disco. Enfim, buffer aquela parte de memria principal disponvel para
armazenamento de cpias de blocos de disco. necessrio desenvolver uma
estratgia para o gerenciamento desse espao. Observe a figura a seguir, ela
tenta clarear a sua percepo sobre o uso do buffer.

Uma considerao importante que um dos objetivos dos sistemas de


banco de dados minimizar o nmero de transferncias de blocos entre o disco
e a memria. O tempo para transferncia dos dados do disco para a memria
formado por algumas etapas. O tempo de busca, o atraso rotacional ou latncia
e o tempo de transferncia. O tempo de busca considerado o principal culpado
pelo atraso envolvido na transferncia de blocos entre o disco e a memria.
Analisaremos a seguir como os arquivos de dados ou informaes so
gravadas dentro dos blocos de disco. Veremos como a distribuio dos registros
de um arquivo podem fazer diferena no processamento de uma consulta.

1.2.

Arquivos no disco

Primeiramente precisamos da definio de registro, que trata basicamente


de uma coleo de valores ou itens de dados. Um arquivo, por sua vez,
definido como uma sequncia de registros. A primeira opo para compor um
arquivo seria utilizarmos um conjunto de registros de tamanho fixo. Imagine que
tenhamos x registros, desta forma fica fcil de definir e alocar espao em disco,
basta multiplicar a quantidade pelo tamanho de um registro.
16712855225

A segunda opo seria definir arquivos cujos registros tem tamanho


varivel. So vrias as possibilidades para que isso acontea. Um ou mais
campos de um registro so de tamanho variado. Um ou mais campos podem ter
mltiplos valores para registros individuais. Um ou mais campos so opcionais.
O arquivo pode ser misto, composto por registros de tamanho fixo e varivel.
O Silberchatz gasta algumas pginas para evoluir com o conceito de
tamanho fixo para tamanho varivel de registro no arquivo. Aqui, vamos nos
limitar a exemplificar os conceitos com uma figura, na nossa opinio isso
maios do que suficiente para provas de concurso. Vejam a imagem a seguir.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

9 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Observem que na primeira figura acima temos um registro de tamanho


fixo. Observem que sabemos a posio das informaes dentro do registro
quando observamos a definio do mesmo. Para lermos o salrio do funcionrio
basta lermos o campo que comea na posio 40 do vetor de bytes. Vejam que
temos seis campos de tamanho total de 71 bytes.
No registro apresentado na letra (b) temos dois campos de tamanho
variveis que so delimitados por um caractere de separao. E temos ainda
trs campos de tamanho fixo, quais sejam: San, Salary e Job_Code. Por fim, na
opo (c) temos um registro que apresenta algumas propriedades interessantes.
Primeiro a descrio e o valor de cada campo aparecem dentro do registro.
Segundo, da mesma forma da alternativa anterior (b), temos uma marca para
delimitar os campos. Por fim, temos um delimitador de fim registro.
Vejam que do ponto de vista prtico o que acontece nos arquivos de dados
que conhecemos hoje uma variao do que foi descrito acima com vrias
outras informaes que compe o cabealho do arquivo. Esta aula no est
interessada neste cabealho, que deve ser tratada dentro do contedo de
sistemas operacionais na parte de gerenciamento de arquivos.
16712855225

Reforamos que o objetivo de uma boa organizao de arquivos localizar


o bloco que contm um registro desejado com um nmero mnimo de
transferncia de bloco. Esse cabealho ou descritor contm informaes que so
exigidas pelos programas do sistema que acessam os registros do arquivo.
Servem para determinar os endereos de disco dos blocos, registrar descries
de formato, tamanho e ordem dos campos em um registro, para registros no
espalhados de tamanho fixo. Ou ainda registra o cdigo de tipo de campo,
caracteres separadores e cdigos de tipo de registro, para registros de tamanho
variado.
Agora j sabemos como cada arquivo composto. Que os registros fazem
parte dos arquivos, vamos fazer a associao entre os registros e os blocos do
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

10 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
disco. Imagine que o espao restante em um bloco no seja suficiente para o
armazenamento do prximo registro a ser inserido no arquivo. Qual atitude
devemos tomar?
So duas as opes possveis. A primeira conhecida como unspanned ou
no espalhada, onde os registros no podem ultrapassar o tamanho do bloco. A
outra opo denominada spanned ou espalhada, neste caso um ponteiro no
final do primeiro bloco aponta para o bloco que contm o restante do registro,
caso no seja o prximo bloco consecutivo. Vejam a diferena na figura
apresentada a seguir, a letra (a) representa a opo no espalhada e a letra (b)
representa a opo espalhada:

A figura acima nos ajuda a calcular outra definio importante dentro do


assunto: o fator de blocagem (Bfr). Seja B o tamanho do bloco e R o tamanho
do registro, se B R, bfr = B/R (funo piso da diviso). Esse valor define a
quantidade registros por bloco de disco.
Para alocar os blocos de arquivos no disco, o ideal que tenhamos uma
alocao contnua. Esta posio dos blocos no disco torna a litura mais rpida,
principalmente, se tiver utilizando uma buffer de leitura. Outra opo para
alocao do arquivo seria a forma ligada. Nela cada bloco contm um ponteiro
para o prximo. Isso facilita a expanso do arquivo, contudo torna a leitura mais
lenta.
Podemos juntar as duas opes acima criando clusters de bloco. Nele
temos conjuntos de blocos contnuos para cada segmento de arquivo. A ltima
opo seria a alocao indexada, onde um ou mais blocos de ndice contm
ponteiros para os blocos de arquivos reais.
16712855225

Quando pensamos em discos rgidos, o endereo de hardware de um bloco


uma combinao de nmero de cilindro, nmero de trilha e nmero de
bloco, ele fornecido ao hardware de E/S do disco. Algumas caractersticas dos
discos so o endereamento por acesso aleatrio, a transferncia de dados para
memria principal que ocorre em unidades de blocos. Esses blocos tem um
endereamento fsico, conhecido como endereo de hardware, um endereo
lgico, denominado LBA Logical Block Address, e o endereo de buffer que
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

11 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
usado na leitura. Veja a figura abaixo uma foto de um disco com alguma das
suas unidades ou estruturas apontadas.

Os HDs so conectados ao computador por meio de interfaces capazes de


transmitir os dados entre um e outro de maneira segura e eficiente. H vrias
tecnologias para isso, sendo as mais comuns os padres IDE, SCSI e,
atualmente, SATA.
O controlador de disco (HDC) comumente embutido na unidade de disco.
Ele controla a unidade de disco e interliga ao sistema de computao,
geralmente por meio de uma interface. O controlador aceita comandos de alto
nvel de E/S e controla a execuo. A localizao dos dados no disco um
gargalo principal nas aplicaes de banco de dados. O tempo de E/S
constitudo pelo somatrio do tempo de busca, do atraso rotacional ou latncia e
do tempo de transferncia.
Outro dispositivo comum placa lgica um pequeno chip de memria
conhecido como buffer (ou cache). Cabe a ele a tarefa de armazenar pequenas
quantidades de dados durante a comunicao com o computador. Como este
chip consegue lidar com os dados de maneira mais rpida que os discos rgidos,
seu uso agiliza o processo de transferncia de informaes. No mercado,
atualmente, comum encontrar discos rgidos que possuem buffer com
capacidade entre 2 MB e 64 MB.
16712855225

J temos os arquivos e seus registros! Que tal agora aprendermos como


fazer operaes sobre eles? Apresentamos abaixo um conjunto de operaes
que so executadas para recuperao de informaes em um arquivo.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

12 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Estas operaes, exceto open e close, so chamadas operaes um


registro por vez, pois cada uma se aplica a um nico registro a cada instante.
Outra operao importante o scan, vista no quadro abaixo:

16712855225

Existem algumas outras operaes que podem ser fornecidas pelo SGBD
ou pelo sistema de entrada e sada do SO. Essas operaes so responsveis por
retornar ou manipular mais de um registro que satisfaa a uma determinada
condio. Observem a lista no quadro a seguir:

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

13 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Agora que j conhecemos os princpios bsicos dos arquivos vamos seguir


para entender sua organizao.

1.3.

Organizao de arquivos

A organizao de arquivo e mtodos de acesso so estudas em conjunto


mais possuem definies distintas. Antes de comearmos a tratar dos termos
prticos, vamos fazer um exerccio mental. Pegue o livro que est mais
prximo de voc! Procure a expresso banco de dados. Voc tem vrias formas
de executar essa pesquisa. Supondo que seja um livro tcnico de Tecnologia da
Informao, voc pode folhear as pginas at encontrar o termo solicitado.
Outra opo seria pesquisar no ndice, ou no ndice remissivo, que geralmente
colocado ao final do livro.
Na histria que acabamos de contar o livro o arquivo, e a forma como
eles est estruturado conhecido como organizao. O mtodo de acesso o
passo-a-passo que voc segue para chegar ao assunto que ti interessa. Aps a
nossa rpida metfora, vamos agora para os termos e conceitos mais formais
sobre o assunto.
16712855225

A organizao de arquivos refere-se organizao dos dados de um


arquivo em registros, blocos e estruturas de acesso. Inclui o modo como
registros e blocos so colocados no meio de armazenamento e interligados. Os
mtodos de acesso oferecem operaes que podem ser aplicadas a um
arquivo. possvel aplicar vrios mtodos de acesso a uma organizao de
arquivos.
Alguns mtodos de acesso, porm, s podem ser aplicados a arquivos
organizados de certas maneiras. Por exemplo, no podemos aplicar o mtodo
de acesso indexado a um arquivo sem um ndice. Vrias tcnicas gerais, como
ordenao, hashing e indexao, so usadas para criar mtodos de acesso.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

14 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
As formas de organizao de arquivos podem ser classificadas em:
registros desordenados, conhecido tambm como arquivo de heap; registros
ordenados ou arquivo classificado; registros com hashing; registros mistos; e
B-tree (rvore). Falaremos de cada um deles a partir de agora.
Os arquivos de registros desordenados ou arquivos de heap (Heap
files) so organizados na ordem em os registros que so inseridos no arquivo.
A principal caracterstica o fato de novos registros serem sempre inseridos no
final do arquivo. Isso garante uma insero extremamente eficiente! Contudo a
pesquisa feita de forma linear, lendo todos os registros em ordem, o que
torna o tempo de leitura alto quando comparado com outras organizaes.
Outro problema a excluso que deixa espao livre. Existem algumas formas
de resolver esse problema.
Uma delas usar o espao de registros excludos ao inserir novos
registros, embora isso exija uma manuteno extra para se manter informado
sobre os locais vazios. Outra opo usar a reorganizao de arquivo para
reduzir os espaos livre resultantes da excluso. Todas as opes acabam por
requerer processamentos adicionais.
Para ler todos os registros na ordem dos valores de algum campo,
criamos uma cpia classificada do arquivo. A classificao uma operao cara
para um arquivo de disco grande, e tcnicas especiais de classificao externa
so utilizadas. Uma soluo ter os arquivos j ordenados.
Os arquivos de registros ordenados, classificados ou sequencial so
armazenados de forma ordenada de acordo com algum campo do registro,
conhecido como campo de ordenao. Se esse campo for a chave do registro
em questo, tambm podemos chama-la de chave de ordenao. As vantagens
desta forma de organizao so uma leitura mais eficiente dos registros,
carregar o prximo registro, em geral, no precisar recarregar o bloco do disco
e a possibilidade de usar busca binria.
Vejamos um exemplo para verificarmos essas caractersticas. Observem a
relao EMPLOYEE descrita na figura abaixo. A figura representa blocos com
informaes dos funcionrios ordenadas alfabeticamente. Percebam que
podemos fazer uso de pesquisa binria sobre os blocos. Os arquivos ordenados
esto em blocos e armazenados em cilindros contguos para minimizar o tempo
de busca.
16712855225

Os arquivos de registros ordenados, porm, no oferece vantagem para


busca por campos diferentes do ordenado. A insero e a excluso de registros
so operaes dispendiosas. Na incluso podemos ter que deslocar, em mdia,
metade dos registros. Podemos ento deixar espaos em branco em cada
bloco, para evitar que o deslocamento supere o mbito do bloco; ou criar um
arquivo overflow ou transao. Com essa tcnica, o arquivo ordenado real
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

15 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
chamado de arquivo principal ou mestre e outro arquivo armazena os novos
registros que excedem o tamanho do bloco. Isso aumenta o custo e
complexidade do algoritmo de escrita, pois um arquivo separado do principal
tem que ser consultado e analisado me todas as operaes.
Existem tambm problemas com a excluso, que so considerados menos
graves, a soluo usar marcadores e fazer a reorganizao do arquivo. A
preocupao com modificaes s deve ser relevante se alterarmos valores de
campos que fazem parte do campo de ordenao.

16712855225

A prxima forma de organizao de arquivos so os arquivos de acesso


direto ou arquivos de hash que utilizam as tcnicas de hashing. A ideia por
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

16 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
trs do hashing oferecer uma funo h, chamada funo de hash ou funo
de randomizao, que aplicada ao valor do campo de hash de um registro e
gera o endereo do bloco de disco em que o registro est armazenado. Vejam
o funcionamento do hash na figura abaixo:

A Condio de pesquisa precisa ser uma condio de igualdade em um


nico campo conhecido como campo hash ou chave hash. Vamos aproveitar a
oportunidade para falar um pouco das tcnicas de hashing existentes. Tambm
utilizado como uma estrutura de pesquisa interna em um programa. Sempre
que um grupo de registros acessado exclusivamente pelo uso do valor de um
campo, por exemplo, CPF. Basicamente temos os seguintes tipos de hashing:
hashing interno, hashing externo para arquivos de disco e tcnicas de hashing
que permitem a expanso dinmica do arquivo.
Na minha concepo o Navathe e outros autores apresentam hashing
interno na teoria para podermos entender como ele funciona. Nosso objetivo
fazer com que voc entenda o que acontece quando aplicamos a funo hash
ao campo de hash. E o mais importante: aps entender que o nmero de
valores possvel da funo muito menor do que todas as entradas, as colises
tornam-se, portanto, uma realidade. Mas como tratar as colises? o que
veremos mais adiante.
O hash interno pode ser entendido por meio da figura anterior. A
aplicao da funo de hash nos leva a uma posio em uma tabela que
armazena um registro. Vejam que existe a possibilidade da funo nos levar
para o mesmo endereo de memria, o que chamamos de coliso. A
pergunta mais uma vez : como tratar as colises?
16712855225

A primeira forma usar o endereamento aberto que usa a prxima


posio do array de registro que est disponvel. Outra opo usar o
encadeamento, neste caso utilizamos uma lista ligada onde o registro
armazenado na posio do array aponta para o prximo registro que tem como
resultado da funo hash o mesmo valor. No encadeamento, o novo registro
colocado em um local de overflow e um ponteiro aponta para ele. Por fim,
temos a possibilidade de utilizar o hash mltiplo ou double-hash, neste caso
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

17 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
existe uma nova funo que aplicaremos o nosso valor de entrada para
obtermos um endereo de memria disponvel.
No hash para arquivos em disco, uma tabela mantida no cabealho do
arquivo converte o nmero do bucket para o endereo do bloco de disco
correspondente.
O
problema
da
coliso

menos
srio,
pois,
independentemente de quantos registros possam caber no bucket eles podem
ser definidos por hashing ao mesmo bucket sem causar problema.
Esse modelo conhecido como hashing externo. O bucket o espao de
endereos de destino, um bloco de disco ou um cluster de bloco de disco
contguos. Uma funo mapeia uma chave no bucket relativo e no no
absoluto. At aqui o endereamento esttico, no possvel crescer ou
diminuir o tamanho do espao de endereamento do hash. Os prximos
modelos esto baseados na criao de buckets de forma dinmica.
A prxima opo usar o hashing extensvel que armazena uma
estrutura de acesso fora do arquivo, semelhante a indexao. O hash
extensvel usa um diretrio dinmico de registros que armazena uma tabela,
onde cada registro contm um ponteiro para um balde (tabela que armazena
os registros) e cada balde tem um nmero fixo de itens.
A ideia usar um diretrio de ponteiros para baldes e duplicar o nmero
de baldes atravs da duplicao do diretrio, particionando justamente o balde
que transbordou. Veja a figura abaixo:

16712855225

Outra opo seria utilizar o hashing linear que no requer estruturas


adicionais. Essa abordagem usa buckets que so estruturas com espaos para
mais de um registro, equivale a baldes alocados em uma estrutura sequencial.
Cada bucket possui um tamanho fixo M, ou seja, armazena M chaves. Inicia-se
a estrutura com um nmero fixo de buckets. Caso o espao do bucket estoure,
utilizado um bucket de overflow que pode ser implementado como uma lista
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

18 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
encadeada. Um ponteiro p determina qual o bucket a ser duplicado. Veja a
figura abaixo para entender melhor:

A criao de novo bucket determinado pelo fator de carga da estrutura.


Ou seja, vrios buckets podem conter mais registros do que o espao
determinado e fazer uso de buckets de overflow. A cada insero, verificado
o fator de carga. Caso seja maior do que um limite estipulado, um novo espao
de alocao determinado.
Existem ainda outras organizaes de arquivos primrias. Temos os
arquivos de registro misto que possui diferentes tipos de registros e as Btree que so rvores balanceadas projetadas para trabalhar com dispositivos
de armazenamento secundrio como discos magnticos.
Em funo de como o arquivo est organizado, o sistema de arquivos
pode recuperar registros de diferentes maneiras. O acesso pode ser
sequencial, neste caso, os SOs s armazenavam arquivos em fitas
magnticas, com isso, o acesso era restrito a leitura dos registros na ordem em
que eram gravados e a gravao de novos registros s era possvel no final do
arquivo. Este tipo de acesso, chamado de acesso sequencial, era prprio da
fita magntica que, como meio de armazenamento, possua esta limitao.
O prximo mtodo seria o acesso direto. Com o advento dos discos
magnticos, foi possvel a introduo de mtodos de acesso mais eficientes. O
primeiro foi o acesso direto, que permite a leitura/gravao de um registro
diretamente na sua posio. Este mtodo realizado atravs do nmero do
registro que a sua posio relativa em relao ao incio do arquivo.
importante ressaltar que o acesso direto somente possvel quando o arquivo
definido com registros de tamanho fixo.
16712855225

Temos tambm o acesso indexado. Esse mtodo de acesso mais


sofisticado, que tem como base o acesso direto, o chamado acesso indexado
ou acesso por chave. Para este acesso, o arquivo deve possuir uma rea de
ndice onde existam ponteiros para os diversos registros. Sempre que a
aplicao desejar acessar um registro, dever ser especificada uma chave
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

19 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
atravs do qual o
correspondente.

sistema pesquisar na rea de

ndice o ponteiro

Aps apresentar essa rpida introduo as organizaes de arquivos e


mtodos de acesso, ns vamos seguir em frente falando sobre RAID e novos
sistemas de armazenamento.

1.4. RAID Redundant Array of


Independent Disks
Focado em paralelizar o acesso aos discos o RAID - Redundant Arrays of
Inexpensive (Independent) Disks traz consigo duas principais vantagens para
a sua implementao: maior confiabilidade e melhor desempenho. J vimos
que o gargalo no processamento de dados acontece na maioria das vezes por
conta do tempo de E/S. RAID veio nivelar as diferentes taxas de melhoria de
desempenho do disco contra as da memria e dos microprocessadores.
Ele possui implementaes em hardware e software. Nas implementaes
em hardware as vantagens so o fato de ser transparente para o sistema
operacional e no utilizar recursos do processador. Em implementaes por
software, o sistema operacional gerencia o RAID atravs da controladora de
discos, sem a necessidade de um controlador de RAIDs, o que torna a
implementao mais barata.
O conceito se baseia na ideia de um grande array de pequenos discos
independentes, que atuam como um nico disco lgico maior. Para isso eles
fazem o que chamamos de striping de dados que nada mais do que o emprego
do paralelismo para melhorar o desempenho, alocando cada parte das
informaes em diferentes discos de forma que elas possam ser lidas
simultaneamente.
O striping de dados pode acontecer em diferentes nveis. striping em nvel
de bit, como o exemplo da figura abaixo, que acontece em quatro discos. Temos
tambm o striping em nvel de bloco, tambm apresentado em quatro discos. O
paralelismo tem dois objetivos: balancear a carga e realizar grandes acessos em
paralelo. Esse paralelismo, portando, influncia diretamente no desempenho.
16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

20 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Outro ponto importante a confiabilidade que uma consequncia da


redundncia. O espelhamento ou sombreamento dos dados vai duplicar a
informao. Neste caso, voc teria os dados em diferentes discos e poderia
tambm paralelizar a leitura. O ponto importante aqui a resilincia do sistema
quando um disco falha. Como existe o espelhamento, as requisies so
repassadas para o disco que continua ativo. O que acaba acontecendo nestes
casos uma queda de performance por falta do paralelismo, que pode ser
retomando assim que o disco for restaurado.
Outra possibilidade que garante a confiabilidade a utilizao do cdigo de
Hamming ou bits de paridade. A ideia conseguir recuperar um ou mais discos
em uma composio de RAID por meio das informaes contidas nos demais
discos que continuam ativos. A forma pela qual os bits de paridade esto
divididos entre os discos uma das propriedades que definem a classificao do
RAID em diferentes nveis.

1.4.1.

Nveis de RAID

Vamos tratar primeiramente dos nveis sete nveis de RAID mais comuns na
literatura. Vejamos cada um deles na lista abaixo:
RAID 0 - tambm conhecido como striping de disco, uma tcnica que
divide um arquivo e distribui os dados em todas as unidades de disco em um
grupo RAID. No existe nenhum espelhamento ou controle de paridade. Neste
caso todos os discos funcionam como apenas um, multiplicando a performance
geral pelo nmero de discos utilizados no conjunto (desde que o sistema
operacional oferea suporte), unicamente com o objetivo de aumentar o
desempenho.
16712855225

RAID 1 Conhecido como discos espelhados. utilizado quando a


confiabilidade dos dados gravados a maior preocupao, utiliza no mnimo
dois discos e basicamente copia os dados de um em outro. Possui uma
performance geral menor em comparao a um disco comum e no utiliza
paridade.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

21 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
RAID 2 - um tipo de soluo de armazenamento que surgiu no final dos
anos 1980. Naquela poca e nos anos seguintes, os HDs no tinham o mesmo
padro de confiabilidade que tm hoje. Por este motivo, foi criado o RAID 2. Ele
, at certo ponto, parecido com o RAID 0, mas conta com um mecanismo de
deteco de falhas do tipo ECC (Error Correcting Code). Hoje, este nvel
quase no mais utilizado, uma vez que praticamente todos os HDs j possuem
o referido recurso implementado internamente.
RAID 3 - reserva uma unidade de armazenamento apenas para guardar as
informaes de paridade, razo pela qual so necessrios pelo menos trs
discos para montar o sistema. A paridade intercalada por bit. Este nvel
tambm pode apresentar maior complexidade de implementao pelo fato de as
operaes de escrita e leitura de dados considerarem todos os discos em vez de
trat-los individualmente. Vejam um exemplo de RAID 3 na figura a seguir.

RAID 4 - tambm utiliza o esquema de paridade, tendo funcionamento


similar ao RAID 3, com o diferencial de dividir os dados em blocos maiores e de
oferecer acesso individual a cada disco do sistema. Neste caso a paridade
intercalada por bloco de disco. Este nvel pode apresentar algum
comprometimento de desempenho, pois toda e qualquer operao de gravao
exige atualizao na unidade de paridade. Por este motivo, seu uso mais
indicado em sistemas que priorizam a leitura de dados, ou seja, que realizam
muito mais consultas do que gravao.
16712855225

RAID 5 - utiliza paridade para a verificao de dados em todos os discos


utilizados, sendo muito parecido com o RAID 0, mas com tolerncia a falhas
devido utilizao de um ECC (Error Correcting Code). umas das opes mais
vantajosas, mas tem uma implementao difcil. Veja a distribuio da paridade
entre os diferentes discos na figura abaixo.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

22 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

RAID 6 - se aplica ao chamado esquema de redundncia P + Q usando


cdigo de Reed-Soloman para proteger contra at duas falhas de discos
simultneas. Trata-se de uma especificao mais recente e parecida com o RAID
5, mas com uma importante diferena: trabalha com dois bits de paridade.
Observem a figura a seguir com uma abstrao da implementao de RAID 6.

1.4.2.

Nested RAID

Existe ainda a possibilidade de unir os conceitos das diferentes


implementaes de RAID listadas anteriormente. As possibilidades mais
conhecidas so RAID 0+1 e RAID 10.
Tal como voc j deve ter imaginado, o nvel RAID 0+1 um sistema
"hbrido" (hybrid RAID), ou seja, que combina RAID 0 com RAID 1. Para isso, o
sistema precisa ter pelo menos quatro unidades de armazenamento, duas para
cada nvel. Assim, tem-se uma soluo RAID que considera tanto o aspecto do
desempenho quanto o da redundncia.
16712855225

H uma variao chamada RAID 10 (ou RAID 1+0) de funcionamento


semelhante. A diferena essencial que, no RAID 0+1, o sistema se transforma
em RAID 0 em caso de falha, no RAID 1+0, o sistema assume o nvel RAID 1.
Vejam na figura abaixo um exemplo da implementao das duas possibilidades
tratadas aqui.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

23 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

1.5.

Novos sistemas de armazenamento

Passaremos agora a anlise dos dispositivos de armazenamentos. Nossa


inteno apresentar uma descrio sucinta para os seguintes termos: DAS,
SAN, iSCSI, NAS.
Nosso estudo comea no DAS (Direct Attached Storage). So os primeiros
dispositivos de armazenamento e suas caractersticas serviro de base para a
comparao com os demais sistemas de armazenamento. Suas unidades de
armazenamento so os blocos de disco. Um dos seus problemas a
conectividade, considerada a principal limitao do DAS. Entre o host e o
dispositivo no h elementos de rede (como hub, switches). No atua como
servidor, um conjunto de HDs acessado apenas por uma ou vrias mquinas
(desde
que
o
dispositivo
possua
vrias
portas).
Os
principais
protocolos/barramentos usados pelo DAS so ATA, SATA, USB, Firewire, eSATA,
SCSI, SAS, Fibre Channel. Observe a figura abaixo para entender um exemplo
da utilizao do DAS.
16712855225

Outro conhecimento importante para o entendimento do assunto a


definio de NFS. Em sistema de arquivos distribudos podemos compartilhar
arquivos e diretrios entre computadores conectados em rede. importante
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

24 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
tornar o acesso remoto transparente para o usurio, por
disponibilizando as reas de trabalho dos usurios em toda a rede.

exemplo,

O NFS um servio de rede que permite o compartilhamento transparente


de sistemas de arquivos ou diretrios entre os ns de uma rede. Permite que os
administradores criem sistemas de arquivo centralizados que facilitam tarefas de
gerncia tais como manuteno e suporte. Em outras palavras, o NFS um
mecanismo que permite voc montar um disco de uma mquina remota na sua,
usando TCP/IP ou outro meio de transporte. Vejam que o cliente no precisa ter
disco local. possvel ainda rodar NFS em redes de longa distncia.
Passaremos agora aos conceitos de NAS, conhecido armazenamento
conectado rede, so servidores que no oferecem quaisquer dos servios
comuns a um servidor, mas simplesmente permitem o acrscimo de
armazenamento para compartilhamento de arquivos. Conhecidos tambm como
appliances.
Um NAS pode armazenar quaisquer dados que apaream na forma de
arquivos, como caixas de e-mail, contedo Web, backups de sistema remoto e
assim por diante. Alto grau de escalabilidade, confiabilidade, flexibilidade e
desempenho. NAS possui maior independncia do sistema operacional do cliente
em comparao com os servidores de arquivo dos sistemas operacionais.
O prximo tipo de armazenamento que seria a rede de rea de
armazenamento (SAN - Storage Attachment Network). Em uma SAN, os
perifricos de armazenamento on-line so configurados como ns em uma rede
de alta velocidade e podem ser conectados e desconectados dos servidores de
uma maneira bastante flexvel.
Vrias empresas tm surgido como provedores de SAN e fornecem as
prprias topologias proprietrias. Elas permitem que os sistemas de
armazenamento sejam colocados a distncias maiores dos servidores e oferecem
diferentes opes de desempenho e conectividades. Para implementar uma SAN
so necessrios: um switch SAN, um dispositivo de armazenamento e um
servidor. Vejam um exemplo de uma rede SAN na figura abaixo:
16712855225

Vamos falar agora dos sistemas de armazenamento que usam iSCSI. O


iSCSI um protocolo que permite que os clientes enviem comandos SCSI para
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

25 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
dispositivos de armazenamento SCSI em canais remotos. Ele no exige
cabeamento especial por meio de Fibber Channel pois usa o protocolo IP.
Nota: Fibre channel protocol FCP padro desenvolvido especialmente
para uso de unidades remotas de armazenamento e de alta velocidade.
Falamos sobre os padres de dispositivos de armazenamento que
interessam para concursos pblicos. A figura a seguir mostra as camadas
presentes na arquitetura de cada um desses padres. Em seguida, partimos para
tratar do assunto de indexao de arquivos.

Estrutura de indexao para arquivo


Aqui faremos uma anlise da estrutura de indexao usada dentro do
contexto de banco de dados.
16712855225

2. ndices
O primeiro conceito que devemos ter em mente do assunto a definio de
ndices. Um ndice um mecanismo utilizado para melhorar a velocidade de
acesso aos dados. Ele composto por uma chave que um atributo ou conjunto
de atributos usado para procurar registros em um arquivo. Ele tambm possui
um ponteiro que consiste em um identificador para um bloco de disco, alm do
deslocamento dentro do bloco para encontrar o registro.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

26 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Um arquivo de ndice consiste em um conjunto de registros com o formato
apresentado na figura abaixo. Esse registro se d o nome de registro de ndice
ou entrada de ndice.

Como uma tcnica para criar estruturas de dados auxiliares, os ndices


agilizam a busca e a recuperao de registros, para isso eles envolvem
armazenamento de dados auxiliares. Esses dados so armazenados nos arquivos
de ndices. Alguns tipos de acesso podem se beneficiar dos ndices, por exemplo,
a localizao de registro com um valor especificado e a localizao de registros
em um intervalo especificado de valores.
necessrio saber se esse benefcio de fato traz um ganho de desempenho
ao sistema de banco de dados. Avaliar os ndices para medir seus efeitos na
performance um passo importante. Vrios SGBDs possuem utilitrios que
ajudam a quantificar os efeitos pretendidos com a criao de ndices sobre
tabelas. Esse valor baseado em alguns fatores, entre eles, o tempo de acesso,
insero e deleo; o overhead de espao em disco e os mtodos de acesso
suportados.
Os arquivos de ndices so geralmente muito menores que os arquivos
originais. Dois tipos de ndices so mais conhecidos. Os ndices ordenados onde
as chaves de busca so armazenadas de forma ordenada. E os ndices hash,
neles as chaves so distribudas uniformemente atravs de bucktes usando
uma funo hash.
Vamos falar um pouco mais sobre a classificao dos ndices. Num primeiro
momento focaremos nos ndices ordenados de nico nvel. Eles so
semelhantes aos ndices remissivos que aparecem ao final de livros tcnicos. O
arquivo de ndice deve conter o campo de ndice ou atributo de indexao. A
primeira classificao para ndices divide os ndices em trs grupos: os
primrios que usam a chave de ordenao do arquivo, os de clustering que
so definidos para atributos no chave (arquivo agrupado), e os secundrios
sobre campos no chave primria do arquivo.
16712855225

Os ndices primrios possuem uma entrada de ndice ou registro de ndice


no arquivo de ndice para cada bloco no arquivo de dados. Cada entrada de
ndice tem um valor do campo da chave primria para o primeiro registro em um
bloco e um ponteiro para esse bloco. Veja que o arquivo est ordenado pelo
menos atributos do ndice. Imagine que os nomes Flavia e Vinicius aparecem no
arquivo de ndice, o primeiro apontando para o bloco 01 e o outro apontando
para o bloco dois. Eu no preciso da entrada Thiago no arquivo de ndice, mas se
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

27 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
eu fizer uma busca por Thiago eu sei que ele est no mesmo bloco de Flavia.
Esse processo de ordenao sequencial do arquivo, leva a uma ocupao de
menos espao na memria.
Os problemas surgem na insero e remoo, principalmente quando temos
de fazer reorganizao dos registros nos blocos de disco. Quando isso ocorre
temos que reajustar tambm o arquivo de ndices. Vejam abaixo um exemplo de
ndices primrios. O primeiro registro de cada bloco chamado de registro
ncora ou ncora do bloco

Os ndices de clustering agilizam a recuperao de todos os registros que


tem o mesmo valor para o campo de agrupamento. Existe, neste casso, uma
entrada para cada valor distinto do campo de agrupamento, juntamente com um
ponteiro para o primeiro bloco no arquivo com o valor. Semelhantemente aos
ndices primrios, eles tm problemas com a insero e remoo de registros.
Neste caso sempre necessrio avaliar possveis mudanas de blocos. Uma
soluo reservar espao para expanso dentro de cada bloco. A figura a seguir
apresenta a distribuio de um ndice de clustering.
16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

28 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Aps observar os ndices primrios e de clustering, fica mais fcil


entendermos outra classificao de ndices que os divide em densos ou
esparsos. Um ndice dito denso quando existe uma entrada de ndice no
arquivo para cada valor de chave de pesquisa e, portanto, para cada registro no
arquivo. Definimos um ndice como esparso, quando temos entradas de ndices
apenas para alguns valores de pesquisa. Os ndices primrios e de clustering so
categorizados como esparsos.
Mas professor, e os ndices densos? Voc no vai mostrar nenhum
exemplo!? Claro que vou ... vamos falar sobre eles agora! Mais especificamente
sobre os ndices secundrios que podem ser criados em campos que so
chaves candidatas ou no. Novamente um arquivo ordenado com dois campos
<campo ndice, ponteiro para o bloco ou registro>. Neste caso no podemos
usar ncoras de bloco, pois o arquivo de registros no est ordenado pelo valor
do ndice. Todos os valores possveis de busca devem estar no ndice! Ele,
portanto, usa um espao maior de armazenamento que o primrio e a sua
ordenao lgica e no fsica. Veja um exemplo na figura a seguir:
16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

29 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Quando o ndice no uma chave candidata, podemos ter mais de um


registro para cada valor de entrada no arquivo de ndices. Desta forma,
precisamos de algum artifcio para termos ponteiros ou referncias para todos os
registros associados a um determinado ndice. Uma soluo a criao de um
bucket ou bloco de ponteiros intermedirio que tem a lista de todas as
ocorrncias. Veja a figura para entender melhor o que estou explicando.

16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

30 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Para finalizar, apresentamos abaixo uma lista com as caractersticas de cada
um dos ndices discutidos at o momento.

3. ndices multinveis
Para falarmos dos ndices mulitnveis vamos comear recorrendo a uma
imagem que est apresentada abaixo.

16712855225

Vejam que temos dois tipos de arquivos de ndices, os internos e os


externos. A ideia diminuir a quantidade de transferncias de blocos de ndices
entre a memria e o disco. Neste contexto criamos uma estrutura de rvore que
comea como os ndices externos, segue por meio dos ndices internos e o
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

31 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
ltimo nvel do ndice interno aponta para os blocos de dados propriamente
ditos. Como esse contexto conseguimos entender o objetivo dessa
hierarquizao dos ndices. Reduzir a parte do ndice que continuamos a
pesquisar por bfri, o fator de bloco para o ndice.
O primeiro nvel do arquivo de ndice conhecido como base. Ele
ordenado com um valor distinto para cada ki. S exigimos um nvel subsequente
se o nvel anterior no couber em n blocos de disco. O ltimo nvel conhecido
como topo. Vejam um exemplo de ndice multinvel na figura abaixo.

16712855225

4. Outros tipos de ndices


Vamos tratar agora de outros tipos de ndices. Primeiramente faladaremos
dos ndices de hash. Um ndice de hash consiste em uma coleo de buckets
organizados em uma matriz. Uma funo de hash mapeia chaves de ndice
para buckets correspondentes no ndice de hash. A figura a seguir mostra trs
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

32 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
chaves de ndice mapeadas para trs buckets diferentes no ndice de hash.
Para fins ilustrativos, o nome da funo de hash f(x).

Outro ndice interessante usa o que chamamos de mapa de bits. O ndice


de bitmap um tipo de ndice que pode ser utilizado para otimizar consultas
que utilizam como filtro de dados, colunas que possuem baixa cardinalidade,
ou seja, colunas que possuem pouca variao de valores nas linhas de uma
tabela. Ao criar um ndice bitmap em uma coluna, o SGBD monta um mapa de
bits para todas as linhas da tabela, contendo todos os valores possveis para a
coluna. Para cada linha h um mapa de todos os valores possveis da coluna
indexada. O SGBD ento grava um bit 1 onde o valor existe em uma
determinada linha e 0 para os valores que no existem nesta linha. Vejam o
exemplo na figura abaixo.

16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

33 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Temos ainda a indexao baseada em funo. O algoritmo do otimizador
dos SGBD comerciais desconsidera, na montagem do plano de acesso, o ndice
associado a uma coluna chave referenciada em uma funo como, por exemplo,
TO_CHAR ou TO_NUMBER. Para suplantar essa limitao, os ndices B-tree ou de
bitmap podem ser criados com a incluso de uma funo padro SQL ou
construda pelo desenvolvedor ou mesmo uma expresso aritmtica, conforme
a sentena de criao dos ndices abaixo.

O nosso assunto terico est concludo, vamos logo a seguir passar para o
comentrio das questes sobre os temas discutidos durante a aula. Antes,
porm, gostaria de fazer um rpido comentrio sobre indexao de textos.

INDEXAO DE TEXTOS
Existem dois mtodos principais de busca por frases em bancos de dados
textuais utilizando indexao de textos, um arquivo invertidos com
contadores de posio e o outro ndice para a prxima palavra.
Um arquivo invertido possui duas partes principais: uma estrutura de busca,
chamada de vocabulrio, contendo todos os termos distintos existentes nos
textos indexados e, para cada termo, uma lista invertida que armazena os
identificadores dos registros contendo o termo. Consultas so feitas tomando-se
a lista invertida correspondente ao termo procurado. As consultas booleanas so
feitas obtendo-se a conjuno ou disjuno entre as listas relativas aos termos
presentes na consulta.
16712855225

Os ndices para a prxima palavra apresentam uma abordagem mais eficiente do


que o uso de arquivos invertidos com contadores de posio. Nessa abordagem,
para cada palavra existente no vocabulrio criado uma lista com as
palavras que ocorrem em uma posio subsequente no texto, justamente
com apontadores de posio para essas ocorrncias.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

34 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Questes Comentadas
Vamos continuar nosso estudo de fazendo algumas questes sobre o
assunto. Sempre que possvel vamos inserir algum detalhamento terico na
explicao da questo. Esperamos que vocs gostem. Nesta aula optamos por
colocar as questes apenas ao final devido quantidade escassa de questes
disponveis.

2.

ANO: 2015 BANCA: COSEAC RGO: UFF PROVA: ANALISTA TECNOLOGIA DA INFORMAO

Em relao aos mtodos de acesso a arquivos, correto afirmar que:


A as fitas magnticas implementam o mtodo de acesso indexado.
B o mtodo de acesso direto possui uma restrio ordem em que os registros
so lidos ou gravados.
C o mtodo de acesso direto trabalha com registros de tamanho varivel.
D o mtodo de acesso indexado tem por base o mtodo de acesso sequencial.
E o mtodo de acesso direto pode ser combinado com o mtodo de acesso
sequencial.
Comentrios: Os Mtodos de acesso so os procedimentos empregados pelo
gerenciador de banco de dados com o objetivo de acelerar a localizao e a
recuperao de algum dado. Analisando cada uma das alternativas acima
podemos encontrar os seguintes erros em cada uma das letras.
A. As fitas, como falamos durante a aula, possuem mtodos de acesso
sequencial, e no indexado como sugere a questo.
B. O mtodo de acesso direto consiste na gravao dos registros em endereos
determinados com base no valor de uma chave primria (por exemplo), de
modo que se tenha acesso rpido aos registros especificados por argumentos de
pesquisa, sem que haja necessidade de percorrer uma estrutura auxiliar
(ndice).
16712855225

C. Vimos durante a aula que o acesso direto trabalha com registros de tamanho
fixo.
D. O acesso indexado tem por base a utilizao de ndice.
A alternativa E est correta e apresenta a nossa resposta. A ideia que voc use
uma funo hash para apontar para um determinando endereo e em seguida
siga por meio do bloco de disco at achar o valor correspondente. Trata de uma
funo hash com endereamento aberto.
Gabarito: E

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

35 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

3.

ANO: 2015 BANCA: NUCEPE RGO: SEFAZ - PI PROVA: ANALISTA SISTEMAS JNIOR

Um Sistema Gerenciador de Banco de Dados (SGBD) permite criar e manipular o


banco de dados. Entre as alternativas abaixo, qual est INCORRETA sobre o
SGBD?
A Garantem restries de integridade.
B Tem suporte a controle de concorrncia.
C A abstrao suportada para os nveis de viso do usurio e conceitual, sendo
o nvel fsico negligenciado e de responsabilidade somente do sistema
operacional.
D Permite controle de acesso.
E Otimiza as consultas por mtodos de acessos eficientes.
Comentrios: Vejam que estamos procurando a alternativa incorreta, desta
forma, vamos analisar apenas a alternativa que temos como resposta. Sabemos
que temos abstrao de nvel conceitual, lgico e fsico. O SGBD trabalha na
implantao dos detalhes lgicos e fsicos. Aspectos de controle da operao de
entrada e sada, atividade tpica do sistema operacional, podem inclusive serem
repassadas ao controle do SGBD.
Gabarito: C

4.

ANO: 2012 BANCA: FCC RGO: TRE-SP PROVA: TCNICO DO


JUDICIRIO - PROGRAMADOR DE SISTEMAS

Em SGBDs,
A os metadados resultam da converso de comandos DDL pelo compilador da
DDL.
16712855225

B mapeamentos, restries de integridade, mensagens de comunicao e


restries de segurana so recursos contidos no dicionrio de dados.
C o arquivo de dados o componente que cuida da alocao do espao na
armazenagem no disco e das estruturas de dados usadas para representar a
informao armazenada.
D a estrutura de armazenagem e os mtodos de acesso so especificados por
um conjunto de definies em um tipo especial de DML.
E a abstrao dos nveis fsico, conceitual e de viso aplica-se, exclusivamente,
definio e estrutura de dados.
Comentrios: Um esquema de banco de dados especificado por um conjunto
de definies expressas por uma linguagem especial chamada linguagem de
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

36 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
definio de dados (Data Definition Language, DDL). O resultado da compilao
de comandos de uma DDL um conjunto tabelas que so armazenadas em um
arquivo especial chamado dicionrio (ou diretrio) de dados.
Gabarito: A

5.

ANO: 2012 BANCA: CESPE RGO: BANCO DA AMAZNIA PROVA:


TCNICO CIENTFICO - ADMINISTRADOR DE DADOS

Acerca de mapeamento fsico de dados, julgue os itens seguintes.


88 Para cada atributo usado em operaes de join, deve-se criar um ndice.
89 Na seleo dos mtodos de acesso a registros fsicos, deve-se considerar a
forma como os dados sero utilizados pelas diversas aplicaes.
90 Em operao de juno (join), atinge-se maior eficincia quando os registros
fsicos esto ordenados pelo atributo usado na juno.
Comentrios: Vamos comentar cada uma das alternativas acima.
88 No existe nenhuma obrigatoriedade de atributos usados em operaes de
join terem um ndice associado. H necessidade apenas dos atributos que esto
nas diferentes tabelas que participam do Join operem sobre o mesmo domnio,
para que a juno possa ser feita efetivamente.
89 Lembre-se do incio da nossa aula, um mtodo de acesso est diretamente
ligado organizao do arquivo, no possvel usar o acesso indexado se no
tivermos o arquivo de ndice relacionado com o arquivo de dados.
90 Esse operao estudada em otimizao de consulta, o merge-join entre
dois arquivos ordenados pelo atributo de juno muito mais rpido. Desta
forma a alternativa est correta.
Gabarito: E C C

6.

ANO: 2015 BANCA: UERJ RGO: UERJ PROVA: ANALISTA DE


SISTEMAS - GRID
16712855225

Tcnicas eficientes para o uso de memria, como memria virtual e caching,


podem ser aproveitadas pelo seguinte motivo:
A o princpio da localidade pode ser aplicado
B memrias dinmicas so mais rpidas que memrias estticas
C a velocidade de acesso memria RAM aumentou muito recentemente
D o espao de armazenamento na memria RAM aumentou muito recentemente
Comentrios: O princpio da localidade pode ser dividido em localidade
temporal e espacial. Na primeira, ao acessar uma palavra na memria principal
muito provvel que o processador volte a acessar essa mesma palavra
novamente durante a execuo dos programas (loops). Na localidade espacial ao
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

37 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
acessar uma palavra na memria principal provvel que em seguida o
processador tente acessar uma palavra de memria subjacente acessada
previamente. Desta forma, temos os exemplos de memria virtual e caching
como exemplos da implementao do princpio da localidade.
Gabarito: A

7.

ANO: 2015 BANCA: FCC RGO: TRT - 15 REGIO (CAMPINAS-SP)


PROVA: TCNICO JUDICIRIO - TECNOLOGIA DA INFORMAO

Existem diferentes tecnologias para a construo de dispositivos de


armazenamento de dados, e o uso de cada um deles depende da finalidade.
Caso a finalidade seja utilizar o dispositivo de armazenamento para realizar uma
cpia de segurana, a nica tecnologia que NO pode ser utilizada
A Memria FLASH.
B DVD.
C Fita magntica.
D Memria RAM.
E CDROM.
Comentrios: Para ser considerado um dispositivo de armazenamento de dados
que guarda cpias de segurana necessrio que o dispositivo possua a no
volatilidade como caracterstica. A memria RAM, por ser uma memria voltil,
que apaga os dados quando o fluxo de energia para, no pode ser utilizada para
esse propsito.
Gabarito: D

8.

ANO: 2015 BANCA: FCC RGO: TRE-RR PROVA: TCNICO DO


JUDICIRIO - OPERAO DE COMPUTADORES

A memria do tipo
___I___ se diferencia das memrias convencionais
___II___ por serem muito rpidas. Por outro lado, so muito mais caras.
16712855225

A memria
___III___ consiste em uma quantidade menor de memria
embutida no processador. Quando este precisa ler dados na memria RAM, um
circuito especial transfere blocos de dados muito utilizados da RAM para esta
memria. Assim, no prximo acesso do processador, este consultar esta
memria, que bem mais rpida, permitindo o processamento de dados de
maneira mais eficiente.
Completam, correta e respectivamente, as lacunas de I a III do texto o que
consta em:
A DRAM (Dynamic RAM) SRAM (Static RAM) cache.
B cache RAM DRAM (Dynamic RAM).
C DDR DDR2 DDR3.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

38 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
D cache RAM SDRAM.
E SRAM (Static RAM) DRAM (Dynamic RAM) cache.
Comentrios: Veja que a segunda questo que trata do fato da velocidade
das memrias SRAM ser maior que as DRAM. Esse fato nos ajuda a preencher os
campos I e II.
O campo III trata da memria cache. Cache um dispositivo de acesso rpido,
interno a um sistema, que serve de intermedirio entre um operador de um
processo e o dispositivo de armazenamento ao qual esse operador acede. A
vantagem principal na utilizao de uma cache consiste em evitar o acesso ao
dispositivo de armazenamento que pode ser demorado, armazenando os dados
em meios de acesso mais rpidos
O cache de disco uma pequena quantidade de memria includa na placa lgica
do HD. Tem como principal funo armazenar as ltimas trilhas lidas pelo HD.
Esse tipo de cache evita que a cabea de leitura e gravao passe vrias vezes
pela mesma trilha, pois como os dados esto no cache, a placa lgica pode
processar a verificao de integridade a partir dali, acelerando o desempenho do
HD, j que o mesmo s requisita a leitura do prximo setor assim que o ltimo
setor lido seja verificado.
Gabarito: E

9.

ANO: 2015 BANCA: CESPE RGO: MEC PROVA: TCNICO DE NVEL


SUPERIOR - ANALISTA DE SISTEMA OPERACIONAL

Acerca das solues de alta disponibilidade, julgue os seguintes itens.


[1] Se um disco falhar em um sistema com configurao RAID 5, possvel
recuperar os dados. Contudo, caso um segundo disco falhe antes do trmino da
recuperao dos dados do primeiro disco defeituoso, todos os dados
armazenados sero perdidos.
[2] Considerando-se que sejam utilizados quatro discos de mesma capacidade
em um arranjo RAID 0 e quatro discos idnticos aos anteriores na configurao
RAID 1, correto afirmar que a capacidade de armazenamento a mesma nos
dois sistemas, havendo apenas uma diferena de velocidade entre os arranjos.
16712855225

Comentrios: Vamos analisar as alternativas acima:


1. A alternativa trata de RAID 5 conhecida como striping with parity across
drives. O RAID 5 o nvel de RAID mais comum e mais utilizado. Para sua
configurao so necessrios no mnimo 3 discos de dados no Array e no
mximo 16. Os dados so distribudos entre os discos existentes no Array e os
dados de paridade so espalhados por todos os discos.
Utilizando os dados de paridade, o sistema pode calcular os dados de um bloco,
caso este dado no esteja mais disponvel. Isso significa que o RAID 5 tem
tolerncia falha de um disco no Array, sem que haja perda de dados. Embora o
RAID 5 seja suportado por softwares de RAID, recomendado uma controladora
RAID para sua implementao pois muitas vezes necessrio a utilizao de
memria cache para melhorar o desempenho de gravao dos dados.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

39 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
2. RAID 0 no temos replicao dos dados, apenas uma diviso que favorece o
desempenho, mas no ajuda na tolerncia a falhas. Diferentemente do RAID 1
que gasta metade dos discos com uma cpia dos dados armazenados nos
demais dispositivos de armazenamento. A questo est, portanto, incorreta, pois
afirma que RAID 0 e RAID 1 tem a mesma capacidade de armazenamento.
Gabarito: C E

10. ANO: 2015 BANCA: IESES RGO: TRE-MA PROVA: ANALISTA


JUDICIRIO - ANLISE DE SISTEMAS
Considere as seguintes afirmativas relativas a RAID:
I. Todos os nveis de RAID so formados por um conjunto de unidades de discos
fsicos, vistas pelo sistema operacional como uma nica unidade lgica.
II. Os nveis de RAID 1, 3, 4, 5 e 6 contam com redundncia, obtida atravs do
armazenamento de informaes de paridade e visando conseguir uma alta
disponibilidade.
III. Os dados so distribudos pelos discos fsicos de um array em um esquema
conhecido como intercalao de dados (striping).
Assinale a alternativa correta com relao as afirmativas:
A Somente uma est correta.
B Somente duas esto corretas.
C Todas esto corretas.
D Todas esto incorretas.
Comentrios: Ok! Vamos comentar as alternativas I, II e III.
I. RAID a sigla para Redundant Array of Independent Disks ou, em traduo
livre, algo como "Matriz Redundante de Discos Independentes". Trata-se,
basicamente, de uma soluo computacional que combina vrios discos rgidos
(HDs) para formar uma nica unidade lgica de armazenamento de dados.
E o que unidade lgica? Em poucas palavras, no que se refere a RAID, tratase de fazer com que o sistema operacional enxergue o conjunto de HDs
como uma nica unidade de armazenamento, independentemente da
quantidade de dispositivos que estiver em uso. Hoje, alm de HDs, possvel
montar sistemas RAID baseados em SSD.
16712855225

II. Apenas um contraexemplo que torna a questo errada, o RAID nvel 1. Nele,
uma unidade "duplica" a outra, isto , faz uma "cpia" da primeira, razo pela
qual o nvel tambm conhecido como mirroring (espelhamento). Com isso, se
o disco principal falhar, os dados podem ser recuperados imediatamente porque
existe cpias no outro. Desta forma a alternativa II est incorreta.
III. Striping o processo de dividir um conjunto de dados em blocos e distribuir
os blocos de dados em vrios dispositivos de armazenamento, como discos
rgidos ou SSDs. Esse conceito de fato utilizado por RAID para distribuir a
informao entre diferentes discos. Desta forma, a alternativa III est correta.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

40 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Gabarito: B

11. ANO: 2013 BANCA: FGV RGO: AL-MA PROVA: TCNICO DE


GESTO ADMINISTRATIVA - PROGRAMADOR DE SISTEMAS
Com relao ao sistema de armazenamento SAN (Storage Area Network),
analise as afirmativas a seguir.
I. O uso de iSCSI em SANS adequado para aplicaes de alto desempenho,
como banco de dados.
II. Alta segurana, redundncia e tolerncia a falhas so caractersticas do SAN.
III. O uso do protocolo iSCSI em SANs facilita a transferncia de dados em
Intranets de forma robusta e confivel.
Assinale:
A se somente a afirmativa I estiver correta.
B se somente a afirmativa II estiver correta.
C se somente a afirmativa II e III estiverem corretas.
D se somente as afirmativas I e II estiverem corretas.
E se todas as afirmativas estiverem corretas.
Comentrios: Vamos analisar cada uma das alternativas abaixo:
I. O iSCSI basicamente o protocolo SCSI encapsulado via IP, um meio mais
barato para se criar uma rede SAN, porm com menor desempenho e
confiabilidade, j que na maior parte das vezes, usam-se switchs compartilhados
com outros ativos de rede. Sendo assim, aplicaes de alto desempenho no
devem utilizar iSCSI.
II. Um storage area network (SAN) uma rede de dispositivos que conectam
vrios clientes e dispositivos de armazenamentos. Portanto, na SAN existem
vrios caminhos disponveis para o transporte de dados entre dois pontos. Esta
caracterstica de mltiplos caminhos da SAN permite flexibilidade,
disponibilidade e escalabilidade.
16712855225

III. Vimos no item I que iSCSI est relacionado ao protocolo IP, protocolo
padro na internet.
Gabarito: C

12. ANO: 2014 BANCA: CESPE RGO: TJ-CE


JUDICIRIO - CINCIAS DA COMPUTAO

PROVA:

ANALISTA

A implantao de uma rede SAN (Storage Area Network) apresenta vantagens


como o alto desempenho, a escalabilidade e a reduo de custos em relao
manuteno das informaes armazenadas. Com relao a esse assunto,
assinale a opo correta.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

41 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
A Em virtude de algumas restries contidas nas especificaes tcnicas dos
dispositivos de interconexo, algumas tecnologias de comunicao como iSCSI e
Ethernet no so suportadas.
B A distncia compreendida entre os dispositivos de armazenamentos e os hosts
deve ser curta, pois distncias superiores a 100 metros prejudicam
consideravelmente o desempenho dessa tecnologia.
C O consumo de largura de banda na rede mnimo considerando-se as
operaes de entrada e sada relacionadas ao armazenamento, caracterstica
que faz com que a SAN se destaque em relao s demais estruturas de
armazenamento de dados.
D A recomendao da maioria dos especialistas que a SAN seja implementada
em cluster com mais de 20 nodos, o que aumenta consideravelmente o poder de
escalabilidade em razo do balanceamento de carga.
E Uma das vantagens desse tipo de rede consiste na centralizao do
gerenciamento do armazenamento, mesmo em SAN mais complexa.
Comentrios: Vejamos as caractersticas de redes SAN.
Os desempenhos do SAN esto diretamente ligados ao tipo de rede utilizado. No
caso de uma rede Fibra Chanel, a banda concorrida de cerca de 100 Mo/s
(1000 Mbit/s) e pode ser estendida multiplicando as relaes de acesso.
A capacidade de um SAN pode ser aumentada de maneira quase ilimitada e
atingir centenas, ou mesmo milhares de ter octetos.
Graas ao SAN, possvel partilhar dados entre vrios computadores da rede
sem sacrificar os desempenhos, na medida em que o trfego SAN est
completamente separado do trfego dos utilizadores. So os servidores
aplicativos que desempenham o papel de interface entre a rede de dados
(geralmente Fibra Chanel) e a rede dos utilizadores (geralmente Ethernet).
Por outro lado, o custo de aquisio de um SAN muito mais elevado do que um
dispositivo NAS, na medida em que se trata uma arquitetura completa,
utilizando tecnologias ainda caras. Quando analisamos o custo por byte do TCO,
a despesa pode justificar-se para muitas empresas.
Analisando o texto acima, podemos concluir que a alternativa E est correta!
Gabarito: E
16712855225

13. ANO: 2015 BANCA: CESPE RGO: MEC PROVA: TCNICO DE NVEL
SUPERIOR - ANALISTA DE SISTEMA OPERACIONAL
Julgue os itens a seguir, acerca de arquiteturas e protocolos para redes de
armazenamento de dados.
[1] O iSCSI um protocolo embasado em IP que estabelece e gerencia conexes
entre armazenamentos, hosts e dispositivos de ponte sobre IP, encapsulando
dados e comandos SCSI para permitir que estes blocos de dados sejam
transportados por meio de pacotes TCP/IP.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

42 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
[2] O iSCSI um protocolo de camada de sesso que inicia uma sesso
confivel com um dispositivo que reconhece comandos SCSI e TCP/IP, sendo sua
interface responsvel pela manipulao de login, autenticao e gerenciamento
da sesso.
[3] Se um storage array que suporte iSCSI implantado, o prprio host pode
agir como iniciador iSCSI e se comunicar diretamente com o armazenamento
atravs de uma rede IP. Porm, em todos os casos, ao se usar o iSCSI,
necessrio um componente FC (Fiber Channel).
Comentrios:
Gabarito: C C E

14. ANO: 2015 BANCA: IESES RGO: IFC-SC PROVA: INFORMTICA SEGURANA E PROJETOS DE REDES
Em relao a implementao de redes e dispositivos do tipo SAN (Storage Area
Network) o que correto afirmar?
A Em funo de requisitos de performance, alguns protocolos como iSCSI e
Ethernet no podem ser utilizados.
B uma excelente alternativa para se utilizar em unidades de armazenamento
de dados distribudas. Em funo do seu baixo consumo de banda, podem ser
largamente utilizados em conexes WAN.
C Trata-se de uma tecnologia que vem perdendo aplicabilidade hoje em dia.
Outras tecnologias de armazenamento como DAS e NAS naturalmente a
substituem.
D Apresenta vantagens como: alto desempenho, alta disponibilidade, facilidade
de gerenciamento e reduo de custos operacionais em relao a outras
tecnologias de storage do gnero.
Comentrios: Vamos analisar cada uma das alternativas abaixo.
A. Alternativa incorreta. Utiliza principalmente os protocolos FC (e suas
variaes) e iSCSI.
16712855225

B. Alternativa incorreta. Seu armazenamento centralizado, consiste em uma


rede dedicada (segregada) e de alta velocidade de servidores e dispositivos de
armazenamento compartilhados.
C. Alternativa incorreta. No est perdendo aplicabilidade.
D. Correta.
Gabarito: D

15. ANO: 2015 BANCA: MP-RS RGO: MP-RS PROVA: TCNICO EM


INFORMTICA - SISTEMAS
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

43 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Qual o tipo de organizao de arquivo, no qual a ideia principal fornecer uma
funo de randomizao que, aplicada ao valor do campo-chave de um registro,
gere o endereo do bloco do disco onde o registro est armazenado?
A Overflow.
B rvore-B *.
C rvore-B.
D Hashing.
E Indexao linear.
Comentrios: Observem que as palavras ou expresso funo
randomizao nos remete a ideia de hashing, presente na alternativa D.

de

Gabarito: D

16. ANO: 2014 BANCA: FCC RGO: METR-SP PROVA: ANALISTA


DESENVOLVIMENTO GESTO JNIOR - CINCIAS DA COMPUTAO
O estudo das estruturas de dados envolve um objetivo terico, que procura
identificar e desenvolver modelos matemticos, determinando que classes de
problemas podem ser resolvidos com o seu uso, e um objetivo prtico, que
busca criar representaes concretas dos objetos e desenvolver rotinas capazes
de atuar sobre estas representaes, de acordo com o modelo considerado.
Considere as definies das estruturas de dados:
I. So conhecidas como listas LIFO Last In First Out. Uma mquina puxando
vages de trens um exemplo de funcionamento de uma estrutura deste tipo.
II. O armazenamento de dados em Memria Secundria (MS) ou externa, se d
atravs da sua utilizao. Os algoritmos e as estruturas de dados para
processamento de dados em MS tm que considerar que o custo para se acessar
um registro algumas ordens de grandeza maior do que o custo de
processamento na Memria Primria (MP) ou interna.
III. uma forma especial de se agrupar dados, em que cada item possui uma
referncia para o prximo item, como se fosse uma corrente, com cada item
sendo um dos elos. Costuma-se chamar esses itens de ns ou nodos.
16712855225

IV. So conhecidas como listas FIFO First In First Out. Pessoas organizadas
para entrar em um trem metropolitano um exemplo de funcionamento desta
estrutura.
V. utilizada para pesquisa em MS, quando os arquivos contm mais registros
do que a MP pode armazenar. uma estrutura de dados utilizada para
manuteno e organizao de arquivos, podendo ser utilizada para armazenar e
recuperar informaes que esto em grandes repositrios de dados.
As estruturas definidas nos itens de I a V so, respectivamente:
A Queues Heaps rvore Binria de Busca Pilhas rvore AVL.
B Pilhas Diretrios Heap Filas Tabelas Hashing.
C Queues Arquivos Lista Duplamente Encadeada Stacks Heap.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

44 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
D Stacks
Hashing.

Heaps

Lista Encadeada Circular

Queues

Tabelas

E Pilhas Arquivos Lista Encadeada Filas rvore B.


Comentrios: Vejam que essa uma questo que trata das possveis
estruturas de dados. Ao analisar cada uma das alternativas podemos, por meio
de uma associao direta, entre os termos e as definies marcar nosso gabarito
na alternativa E.
Gabarito: E

17. ANO: 2012 BANCA: FUNRIO RGO: MPOG PROVA: ANALISTA TECNOLOGIA DA INFORMAO
Sobre a organizao de arquivos de registros desordenados (Heap Files), usada
frequentemente em sistemas de gerenciamento de banco de dados, correto
afirmar que
A possvel usar pesquisa binria sobre campo chave.
B seus registros so armazenados em rvores-B.
C permite o uso de ndices primrios.
D requer uma funo de hashing externo.
E incluir um novo registro muito eficiente.
Comentrios: Quando tratamos da organizao de registro em arquivos tempos
basicamente 4 tipos segundo o silberchatz:
Organizao de arquivo heap: Nessa organizao, qualquer registro pode ser
colocado em qualquer lugar no arquivo onde haja mais espao para registro. No
h uma ordem de registro. Normalmente, h um nico arquivo para cada
relao.
Organizao de arquivo sequencial: Nessa organizao, os registros so
armazenados em ordem sequencial, baseada no valor da chave primria de cada
registro.
Organizao de arquivo hashing: Nessa organizao, uma funo hash
calculada sobre algum atributo de cada registro. O resultado da funo hash
especifica em qual bloco do arquivo o registro deve ser colocado.
16712855225

Organizao de arquivo clustering: Nessa organizao, os registros de


diferentes relaes podem ser armazenados no mesmo arquivo. Registros so
relacionados de diferentes relaes so armazenados no mesmo bloco, de forma
que uma operao de I/O busque os registros relacionados de todas a relaes.
Vejam que da lista de opes acima a organizao de arquivo heap garante uma
incluso de registro mais eficiente.
Gabarito: E

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

45 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

18. ANO: 2012 BANCA: ESAF RGO:


SISTEMAS - INFORMTICA E REDES

MI

PROVA:

ANALISTA

DE

Em relao a sistemas de gerenciamento de arquivos, correto armar que:


A a organizao de arquivos
quantitativamente dispostos.

consiste

em

como

seus

dados

esto

B cada arquivo possui informaes de acesso denominadas owindexes.


C a forma como o sistema organiza logicamente os diversos arquivos contidos
em um disco a estrutura em diretrios.
D um mapa de bytes (middle byte) permite implementar uma estrutura de
espaos de controle.
E a alocao contgua consiste em armazenar um arquivo
aleatoriamente dispostos no disco.

em blocos

Comentrios: Ao analisar cada uma das alternativas acima, podemos verificar


que a nica que faz sentido do ponto de vista terico a alternativa C. Sua
descrio trata da definio de uma estrutura de diretrios.
Gabarito: C

19. ANO: 2013 BANCA: FGV RGO: AL-MT PROVA: ANALISTA DE


SISTEMAS - PROGRAMADOR
As alternativas a seguir apresentam caractersticas dos arquivos Heap,
exceo de uma. Assinale a.
A Incluso de novos registros muito eficiente.
B Organizao de arquivos a mais simples e bsica
C Pesquisa de registros envolve busca sequencial bloco a bloco.
D Para um arquivo com b blocos, uma busca envolve em mdia b/2 blocos.
16712855225

E Os registros so posicionados de modo ordenado atravs da chave de


classificao.
Comentrios: Vejam que a que pede a alternativa que no representa uma
caracterstica dos arquivos de Heap.
Os dados nas pginas de um arquivo heap no esto ordenados de nenhuma
maneira, e a nica garantia que se podem recuperar todos os registros no
arquivo por meio de repetidas solicitaes do prximo registro. Cada registro no
arquivo possui um id nico, e todas as pginas de um arquivo so do mesmo
tamanho. Tambm so conhecidos como Arquivos de Registros
Desordenados.
considerado o mtodo mais simples, onde os registros so armazenados nos
arquivos na ordem em que so inseridos (isto , na ltima posio). A insero
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

46 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
de um novo registro muito eficiente neste tipo de estrutura. O ltimo bloco do
banco de dados no disco copiado para um buffer, o novo registro
acrescentado e depois ele regravado de volta no disco.
No entanto, a busca e excluso neste tipo de arquivo mais trabalhoso, pois
demanda uma pesquisa linear. Para excluir um registro, o programa deve
primeiro encontrar o seu bloco, copi-lo para o buffer, excluir o registro no
buffer, reorganizar o bloco e regravar o bloco no disco. Isto pode deixar espaos
livres nos blocos, que aps um grande nmero de excluses pode resultar em
muito espao desperdiado.
Aps toda essa explicao podemos marcar a resposta na alternativa E que
apresenta uma caracterstica que no pertence aos arquivos Heap.
Gabarito: E

20. ANO: 2015 BANCA: IDECAN RGO: INMETRO PROVA: ANALISTA


EXECUTIVO EM METROLOGIA E QUALIDADE - INFRAESTRUTURA
Nos bancos de dados relacionais, os dados so armazenados em tabelas. Um
banco de dados Oracle tem uma estrutura fsica e lgica. Uma vez que tais
estruturas so separadas no servidor, o armazenamento fsico dos dados pode
ser gerenciado, de modo a no afetar o acesso s estruturas lgicas de
armazenamento. A estrutura lgica do Oracle determinada por um ou mais
tablespaces que so espaos lgicos do armazenamento e pelos objetos de
esquema do banco de dados. Para agilizar o acesso s linhas de uma tabela, o
Oracle usa o conceito de ndices, semelhante aos encontrados em livros, que
uma estrutura opcional associada com tabelas e clusters que permite a execuo
mais rpida de comandos SQL. O Oracle possui diversos tipos de ndices que
oferecem vantagens para determinados tipos de aplicaes. Um desses ndices
compacto e trabalha melhor com colunas com pouca variao de contedo.
Trata se do
A B tree indexes.
B Bitmap indexes.
C Reverse Key indexes.
16712855225

D B tree cluster indexes.


E Global and local indexes.
Comentrios: Aproveitaremos essa questo para mostrar como um SGBD, no
caso o Oracle, implementa os ndices.
Um ndice um objeto de schema que contm uma entrada para cada valor que
aparece numa coluna indexada de uma tabela ou cluster e oferece acesso rpido
e direto s linhas correspondentes. O banco de dados Oracle suporta uma
variedade de tipos de ndices:
Normal indexes: por padro (default) o Oracle cria ndices do tipo B-tree;
Bitmap indexes: armazena os rowids associados a um valor de chave em
forma de bitmap;
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

47 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Partitioned indexes: consiste em um particionamento contendo uma entrada
para cada valor que aparece na coluna indexada da tabela;
Function-based indexes: representam expresses. Possibilitam a construo
de consultas que avaliam o valor retornado por uma expresso, que por sua vez
podem incluir buit-in functions ou user-defined functions;
Domain indexes: so instncias de uma aplicao especfica de um tipo de
index.
Sobre os Bitmap Indexes precisamos detalha-los um pouco mais. Bitmap
indexes so amplamente utilizados em ambientes de data warehouse. Este tipo
de ndice oferece:
Tempo de resposta reduzido para grandes volumes de dados; Espao de
armazenamento reduzido comparado com outras tcnicas de indexao; Ganhos
dramticos de performance e relativamente pequeno consumo de CPU;
Manuteno eficiente durante operaes de DML paralelas ou cargas de dados.
Bitmap indexes so muito efetivos para consultas que contm muitas condies
em suas respectivas clusulas WHERE. Linhas que satisfaam algumas, porm
no todas as condies, so filtradas antes da tabela ser acessada, reduzindo
muito o tempo de acesso das consultas. So geralmente usados para colunas
com pouca variao de contedo, por exemplo, sexo (masculino, feminino),
formao (superior completo, superior incompleto, mestrado, doutorado, PhD).
Gabarito: B

21. ANO: 2015 BANCA: FCC RGO: CNMP PROVA: ANALISTA DO CNMP SUPORTE E INFRAESTRUTURA
Em um sistema de banco de dados relacional, os ndices representam um tipo de
estrutura de grande importncia. Considerando os tipos de ndices existentes,
correto afirmar que
A um ndice ordenado do tipo esparso no contm registros para todos os
valores da chave de busca.
B um ndice ordenado do tipo esparso ou denso no pode utilizar a chave
primria da tabela como chave de busca.
16712855225

C uma vez montado um ndice, esparso ou denso, ele no precisa mais ser
atualizado no decorrer do uso do banco de dados.
D quando um registro inserido em um ndice, ele deve permanecer at que a
tabela que originou o ndice seja excluda.
E um banco de dados com poucas tabelas no comporta os ndices chamados
multinvel.
Comentrios: ndices so estruturas de dados que recebem como entrada uma
propriedade de registro (um valor de um ou mais campos) e encontra os
registros com essa propriedade rapidamente. Portanto, os ndices so estruturas
auxiliares cujo nico propsito tornar mais rpido o acesso a registros
baseados em certos campos, chamados campos de indexao.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

48 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Existem diversos tipos de ndices conforme vimos na nossa aula:
Primrio: baseado na chave de ordenao;
Agrupamento/Clustering: baseado no campo de ordenao no-chave de um
arquivo;
Secundrio: baseado em qualquer campo no ordenado de um arquivo;
ndices multinveis;
rvores B e B+;
Tabelas Hash.
ndices sobre arquivos sequenciais geralmente so classificados como densos
ou esparsos:
ndices Densos: uma entrada no arquivo de ndice para cada entrada no arquivo
de dados. Desta forma, os ndices densos apresentam uma sequncia de blocos
contendo apenas as chaves dos registros e os ponteiros para os prprios
registros.
ndices Esparsos: apenas alguns registros de dados so representados no
arquivo de ndices. Utilizam menos espao de armazenamento do que o ndice
denso ao custo de um menor tempo de acesso.
Em outras palavras, um ndice ordenado (sequencial) do tipo esparso, ao
contrrio do denso, no contm registros para todos os valores da chave de
busca. Cada entrada de um ndice esparso aponta para um bloco de registros.
Cada entrada de um ndice denso aponta exatamente para o registro em si.
Desta forma, a resposta correta para esta questo a letra A.
Gabarito: A

22. ANO: 2014 BANCA: VUNESP RGO: TCE-SP PROVA: AGENTE DA


FISCALIZAO FINANCEIRA - INFRAESTRUTURA DE TI E SEGURANA
DA INFORMAO
Em sistemas gerenciadores de bancos de dados relacionais, uma das tcnicas
largamente utilizadas para a otimizao de desempenho consiste no (na)
16712855225

A limitao no nmero de campos de cada tabela do banco de dados.


B proibio da insero de valores nulos nos registros das tabelas.
C uso extensivo de triggers ou gatilhos para a realizao de procedimentos.
D criao de grupos de usurios, com caractersticas semelhantes, do banco de
dados.
E criao de ndices sobre alguns campos das tabelas do banco de dados.
Comentrios: J falamos que os SGBDs utilizam ferramentas prprias para
analisar a base de dados e sugerir a criao de ndices. Essa criao
geralmente baseada em critrios operacionais que vo melhorar o desempenho
de determinadas consultas sobre o banco de dados.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

49 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
Gabarito: E

23. ANO: 2010 BANCA: CESPE RGO: TRT - 21 REGIO (RN) PROVA:
ANALISTA JUDICIRIO - TECNOLOGIA DA INFORMAO
Acerca de desempenho e otimizao de consultas SQL no SQL Server 2008,
julgue os itens de 63 a 69.
[1] Os ndices do tipo clustered determinam a ordem fsica dos dados em uma
tabela e mostram-se particularmente eficientes em colunas pesquisadas
frequentemente por uma faixa de valores ou quando o valor do registro nico
na tabela.
Comentrios: Dentre as estratgias de otimizao para bancos de dados os
ndices so os mais usados e atuam diretamente no sequenciamento dos dados
mapeados, criando links para as linhas das tabelas e aumentando a performance
das consultas.
Um ndice clusterizado determina a ordem em que as linhas de uma tabela so
armazenadas no disco. Se uma tabela tem um ndice clusterizado, no momento
de um INSERT as linhas dessa tabela sero armazenadas em disco na ordem
exata do mesmo ndice. Por exemplo, suponha que temos uma tabela chamada
Livro que tem uma coluna de chave primria livroID e que criamos um ndice
clusterizado para essa mesma coluna. Ao fazer isso, todas as linhas dentro da
tabela Livro sero fisicamente ordenadas (no disco atual em que esto inseridas)
atravs dos valores que esto na coluna livroID.
Isso implicar em um ganho enorme na performance das pesquisas, pois as
colunas da tabela estaro ordenadas na mesma ordem dos ndices clusterizados
por intermdio do modelo de armazenamento usado por esse tipo de ndice.
Baseado no que acabamos de explicar podemos marcar a alternativa como
correta.
Gabarito: C

16712855225

24. ANO: 2014 BANCA: FGV RGO: CM-RECIFE PROVA: ASSISTENTE


LEGISLATIVO - PROGRAMADOR
rvores B so largamente utilizadas na construo de ndices em
implementaes de bancos de dados. Considere as seguintes afirmativas sobre
esse tipo de organizao:
I. H apenas um n raiz.
II. O algoritmo de remoo de uma chave no preserva o balanceamento da
rvore, o que feito periodicamente nos bancos de dados por meio de um
processo de limpeza dos ndices.
III. O algoritmo de insero preserva o balanceamento da rvore, criando novos
ns e alterando a estrutura da rvore quando necessrio.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

50 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
IV. Numa tabela de banco de dados onde a chave de indexao composta por
mais de uma coluna, a ordem dessas colunas no comando de criao do ndice
irrelevante.
Assinale se:
A todas as afirmativas esto corretas;
B somente as afirmativas I, II e IV esto corretas;
C somente as afirmativas II e III esto corretas;
D somente as afirmativas I e III esto corretas;
E nenhuma das alternativas est correta.
Comentrios: rvore B ou B-Tree so estruturas de dados muito utilizadas em
banco de dados e sistema de arquivos.
As rvores B so um tipo de rvores de busca que foram projetadas para
minimizar o nmero de acessos memria secundria. Como o nmero de
acessos memria secundria depende diretamente da altura da rvore, as
rvores B foram projetadas para ter uma altura inferior s rvores rubro-negras
ou AVL, para um dado nmero de chaves. Para manter o nmero de registros
armazenados e, ao mesmo tempo, diminuir a altura, uma soluo aumentar o
grau de ramificao da rvore (o nmero mximo de filhos que um n pode ter).
Assim rvores B so rvores de busca que possuem um grau de ramificao
geralmente muito maior que 2. Alm disso, a cada n de uma rvore B so
associados mais de um registro de dados: se o grau de ramificao de um n for
g, este pode armazenar at g-1 registros. A figura abaixo mostra um exemplo
de rvore B.

16712855225

Na rvore B temos apenas um N Raiz, e as operaes de insero e excluso


preservam o balanceamento da rvore.
Para inserir um novo elemento em uma rvore B, basta localizar o n folha X
onde o novo elemento deva ser inserido. Se o n X estiver cheio, ser necessrio
realizar uma subdiviso de ns que consiste em passar o elemento mediano de X
para seu pai e subdividir X em dois novos ns com t - 1 elementos e depois
inserir a nova chave.
At aqui podemos observar que as alternativas I e III esto corretas e
alternativa II est errada.

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

51 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
A ltima alternativa trata da ordem dos atributos na criao dos ndices, isso
certamente fara diferena na hora de se construir ou criar o ndice, pois pode
mudar a formas como o SGBD estrutura os ndices fisicamente.
Gabarito: D

25. ANO: 2015 BANCA: IESES RGO: IFC-SC PROVA: INFORMTICA BANCO DE DADOS
Qual das afirmaes a seguir uma caracterstica positiva atribuda ao uso de
ndices em banco de dados?
A Menor consumo de espao em disco para armazenamento dos dados.
B Garantia de integridade dos dados.
C Atribuio de um identificador nico para cada registro gravado.
D Melhor desempenho nas consultas s tabelas do banco de dados.
Comentrios: Algumas caractersticas dos ndices que ns conhecemos,
primeiramente eles melhoram o desempenho das consultas que tem como
referencias o (s) campo (s) utilizado (s) na construo do ndice. Outro ponto
que o arquivo de ndice precisa ser armazenado, esses vai ocupar um espao
extra diferente do arquivo de dados.
Os ndices no tm preocupao direta com a integridade dos dados, esses so
controlados pelo SGBD por meio da garantia das restries de integridade e do
controle de transaes. A identificao nica s tem guarida quando temos um
ndice denso, o que no verdadeiro para 100% dos casos.
Pelo exposto, temos nossa resposta na alternativa D.
Gabarito: D

26. ANO: 2015 BANCA: CESPE RGO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO - TECNOLOGIA DA INFORMAO
16712855225

Considere as seguintes configuraes de servidores de banco de dados


(SBD):
I O controle de concorrncia do servidor X foi configurado para o tipo bloqueio
de modo mltiplo.
II Especificamente na tabela T do servidor X, foram criados, em dois campos
distintos, dois ndices (IdxA e IdxB) contendo apenas um campo para cada um:
o primeiro, IdxA, do tipo primrio, e o segundo, IdxB, do tipo secundrio, em
um campo no chave.
III Dois servidores foram configurados para trabalhar de forma distribuda do
tipo SBDF (sistemas de banco de dados federado), com intuito primordial de
garantir mais disponibilidade, no caso de falha de um dos servidores.
IV O servidor Z foi configurado com um sistema do tipo orientado a objeto.
Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

52 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
[1] Na configurao II, o ndice IdxA no denso e possui ancoragem de bloco
no arquivo de dados. O ndice IdxB pode ser denso ou no, mas no possui
ancoragem de bloco no arquivo de dados.
Comentrios: Esta questo est de acordo com Navathe. Quando temos um
ndice primrio, ele necessariamente ser esparso e deve utilizar ncora de bloco
no arquivo de dados. Quando o ndice secundrio, ou seja, baseado em um
campo no chave, ele pode ser denso ou esparso, sem ncora de bloco no
arquivo de dados.
Gabarito: C

27. ANO: 2015 BANCA: CESPE RGO:


JUDICIRIO - INFRAESTRUTURA

STJ

PROVA:

ANALISTA

[1] No que se refere a fundamentos de banco de dados, julgue os itens a seguir.


O uso de ndices pode aumentar o desempenho na operao de bancos de
dados. No entanto, caso um arquivo com ndice sequencial seja utilizado, o
desempenho do banco de dados reduzido medida que o tamanho desse
arquivo aumenta.
Comentrios: O ndice sequencial trata basicamente de indexar um arquivo
sequencial. Parece bvio que mesmo com a melhora introduzida pela indexao
o crescimento do arquivo reduz o desempenho do banco.
Gabarito: C

28. ANO: 2015 BANCA: CESPE RGO:


JUDICIRIO - INFRAESTRUTURA

STJ

PROVA:

ANALISTA

Com referncia a tunning de banco de dados, julgue os itens subsecutivos.


[1] O ajuste de ndices um procedimento utilizado para aumentar o
desempenho de um banco de dados. Esse ajuste realizado removendo-se ou
inserindo-se ndices apropriados para as relaes, visto que o gargalo de
desempenho pode ser causado pelo excesso de atualizaes ou de consultas no
banco de dados.
16712855225

Comentrios: A questo est correta. Um dos utilitrios apresentado pelos


SGBDs permite que o DBA, baseado nas estatsticas presentes no dicionrio de
dados sobre a tabela e em informaes sobre o uso do sistema de banco de
dados, defina ndices que otimizem as consultas e demais operaes sobre o
banco.
Gabarito: C

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

53 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00
29. ANO: 2015 BANCA: IESES RGO: TRE-MA PROVA: ANALISTA
JUDICIRIO - ANLISE DE SISTEMAS
Os ndices so elementos fundamentais em um projeto de Data Warehouse. Os
tipos de ndices usados em sistemas de Data Warehouse so:
A ndice invertido.
B ndice bitmap e ndices join.
C Round ndice.
D ndices analticos semnticos.
Comentrios: J comentamos na aula que os ndices de bitmap so
importantes para projetos de DW. Os ndices de join so criados a partir dos
relacionamentos entre duas tabelas para agilizar as consultas. Vejam a figura
abaixo que mostra um exemplo doe join index (JI) retirado do paper que define
o termo, disponvel aqui.

Gabarito: B

16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

54 de 55

Armazenamento de Dados e Indexao


Prof. Thiago Rodrigues Cavalcanti Aula 00

Consideraes finais
Chegamos, pois, ao final da nossa aula sobre organizao de arquivos,
mtodos de acesso, indexao e hashing! Este o primeiro assunto que
consideramos quando pensamos em um curso avanado de banco de dados. No
toa que ele est presente na primeira aula do curso de banco de dados
avanados.
Espero que voc esteja curtindo o assunto de banco de dados. Cada passo
dentro do assunto deve ser dado com segurana, portanto, no deixe de mandar
suas dvidas por um dos canais de atendimento do Estratgia.
Peo que depois de lerem esse material, tentem esgotar todas as questes
sobre o assunto de algum site de questes. Qualquer dvida pode postar no
frum aqui do Estratgia.
Thiago Cavalcanti

Referncias
Fiz uma lista com alguns links de referncias caso voc queria se
aprofundar um pouco.
i.
Sistemas de banco de dados Navathe, Elmari 6 edio.
ii.
Introduo a sistemas de banco de dados C.J. Date 8 edio.
iii.
Sistemas de banco de dados Silberchatz, Korth Sudarshan - 5
edio.
iv.
Texto sobre HD - http://www.infowester.com/hd.php

16712855225

Prof. Thiago Rodrigues Cavalcanti

www.estrategiaconcursos.com.br

55 de 55