Você está na página 1de 217

Classificação e tratamento da informação

O objetivo deste tópico é discorrer sobre a importância do acesso ao dado.

NESTE TÓPICO
A Informação.
Coleção de dados.
Tipos de dados.
Referencia a big data.
Referência a Armazenamento.
Evolução da arquitetura de armazenamento.
Referência a data center.
Características chave de um data center.
Administração do data center.
Resumo.
Referências
NESTE TÓPICO

A Informação.
Coleção de dados.
Tipos de dados.
Referencia a big data.
Referência a Armazenamento.
Evolução da arquitetura de armazenamento.
Referência a data center.
Características chave de um data center.
Administração do data center.
Resumo.
Referências
Marcar
tópico

Este módulo descreve a quantidade de dados que são gerados por indivíduos e por negócios. Em ambos os
casos, o processamento dos dados é direcionado para a construção de informações envolvendo os dados.
Tipicamente os negócios analisam o dado para identificar o significado das tendências. Este módulo
também descreve a evolução da arquitetura do storage a partir da arquitetura de um servidor centralizado
para a arquitetura de informação centralizada. Este módulo também descreve os cinco elementos chaves do
data center e lista suas principais características.
A Informação.
As informações tem se tornado importante em todos os dias de nossas vidas. Nós temos nos tornado
completamente dependentes da informação neste século 21, vivendo em um mundo on-command on-
demand, o que significa que nós necessitamos de informação onde e quando ela for solicitada. Nós
acessamos a internet todos os dias para executar pesquisas, participar de redes sociais, enviar e receber e-
mails, compartilhar fotos e vídeos alem de pontuar outras aplicações. Equipados com um número crescente
de conteúdo gerado em devices, mais informações começam a ser criadas por pessoas e negócios.
Informações criadas por indivíduos ganham valor quando compartilhadas com outros. Quando criadas as
informações residem apenas nas devices locais, do tipo telefone celular, smart fones, tablets, cameras, e
laptops. Para compartilhar estas informações é necessário um upload via rede para um datacenter. É
interessante observar que enquanto a maioria das informações são criadas por indivíduos, elas são
armazenadas e administradas por um número relativamente pequeno de organizações.
A importância, dependência e o volume de informações para os negócios no mundo continuam a crescer de
forma espantosa. Os negócios dependem de acesso rápido e confiável as informações críticas para seu
sucesso. Algumas aplicações de negócio que dependem de informações incluindo reserva de passagem
aérea, sistema de faturamento em telecom, ATM, desenho de produtos, administração de inventário, portais
web, registro de patente, cartão de crédito, ciências da vida e mercado de capotais. O crescimento da
dependência de informações para os negócios têm amplificado os desafios em estocagem, proteção e
administração de dados. Obrigações de norma, legais e contratuais relativas à disponibilidade e proteção do
somam-se a estes desafios.
Coleção de dados.
Os dados são uma coleção de fatos crus para os quais as conclusões necessitam ser desenhadas. Cartas
manuscritas, livro impresso, fotografia de família, um filme em vídeo tape, papeis com cópias impressas e
devidamente assinadas de escritura, livros bancários e cadernetas de marcação de contas são exemplos que
contém dados. Antes do advento dos computadores, os procedimentos e métodos adotados para a criação de
dados e compartilhamento eram limitados a poucas formas do tipo papel e filme. Hoje em dia o mesmo dado
pode ser convertido na forma mais conveniente do tipo uma mensagem de e-mail, um e-book, uma imagem
em bitmap ou um filme digital. Estes dados podem ser gerados utilizando um computador e armazenados
em strings de 0s ou 1s, conforme mostrado na figura acima. O dado nesta forma é chamado de digital e é
acessado pelo usuário apenas depois de processado pelo computador.
Com o avanço do computador e equipamentos de tecnologia da informação as média da geração de dados e
seu compartilhamento tem crescido exponencialmente. A seguir temos uma lista de alguns dos fatores que
têm contribuído para o crescimento do dado digital:

 Crescimento da capacidade de processamento de dado: Nos dias de hoje, os


computadores provêm um significante aumento na capacidade de armazenamento e
processamento de dados. Isto habilita a conversão de vários tipos de conteúdos e midias a
partir de formas convencionais para formatos digitais.
 Baixo custo do armazenamento digital: A tecnologia avança e decai o custo dos devices
de armazenamento, isto tem permitido um baixo custo de soluções de armazenamento.
Este custo benefício tem aumentado a taxa para a qual o dado digital tem sido gerado e
armazenado.

 Tecnologia de comunicação rápida e acessível: A taxa de dado digital é agora muito


rápida em comparação com as abordagens tradicionais. Uma carta escrita a mão poderia
levar uma semana para alcançara seu destinatário, ao passo que via e-mail a mensagem
leva apenas alguns poucos segundos..

 Proliferação de aplicações de devices com esperteza: Smart fones, tablets e uma nova
geração de aparelhos digitais ao longo de aplicações com inteligência têm contribuído
significantemente para a geração de conteúdo digital.
Figura 1 - Coleção de dados.
Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Tipos de dados.
Dado pode ser classificado como estruturado e não estruturado, baseado em como ele é armazenado e
administrado. O dado estruturado é organizado em linhas e colunas, num formato rigidamente definido,
então as aplicações pode obte-lo e processá-lo de forma eficiente. O dado estruturado é tipicamente
armazenado utilizando-se um database management system (DBMS).
O dado não é estruturado se seus elementos não podem ser armazenados em linhas ou colunas e isto
dificulta a sua obtenção para aplicações de negócios. Por exemplo, o contato do cliente pode ser
armazenado de várias formas, tipo anotação em linha, mensagens de e-mail, business cards, ou em arquivos
digitais, do tipo .doc, .txt ou PDF. Devido sua natureza não estruturada, fica difícil obter o dado usando uma
aplicação tradicional. Os negócios se preocupam em primeiro lugar com a administração do dado não
estruturado porque, 90 por cento dos dados das empresas são não estruturados e necessitam de considerável
espaço de armazenamento, além de esforço para sua administração.

Figura 2 - Tipos de dados.


Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Referencia a big data.


"Big Data" é um conceito novo e evolutivo, que se refere ao conjunto de cujo tamanho está além da
capacidade dos softwares comumente utilizados de capturar, armazenar, administrar e processar dentro de
seus tempos-limite. Isto inclui ambos, os dados estruturados e os não estruturados gerados por uma
variedade de fontes, incluindo transações em aplicações de negócios, páginas web, vídeos, imagens, e-
mails, medias sociais e assim por diante. Este conjunto de dados normalmente requerem captura em tempo
real, ou atualizações para análise, modelo preditivo e tomada de decisões.
A infraestrutura tradicional de T.I., as ferramentas de processamento de dados e as metodologias são
inadequadas para manipular o volume, variedade, dinamismo e a complexidade do big data. Analisando big
data em tempo real, ele requer novas técnicas, arquitetura e ferramentas para permitir alta.performance,
processamento massivo e paralelo (MPP) e análise avançada em seu conjunto de dados.
As organizações enfrentam desafios na transcrição de grandes volumes de informações em corretas
decisões. O big data analítico provê a oportunidade de encontrar dentro deste novo e emergente tipo de
dados, oportunidades de tendências de negócio, promover aquisições do cliente, direcionar estratégias de
produtos e serviços, otimizar operações de negócio, e criar vantagens competitivas no mercado dinâmico e
globalizado. Pesquisas médicas e cientificas, cuidados com a saúde, administração pública, detecção de
fraude, media social, bancos, companhias de seguro, e outras entidades que se baseiam em informação
digital se beneficiam do big data analítico. A arquitetura de armazenamento requerida pelo big data deve ser
simples, eficiente e fácil de administrar e ainda promover acesso a múltiplas plataformas e fontes de dados
simultaneamente.
Figura 3 - Referencia a big data.
Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Referência a Armazenamento.
O dado estruturado ou não estruturado, não preenche nenhum propósito para indivíduos ou negócios amenos
que seja apresentado em uma maneira inteligível. Informação é inteligência e conhecimento derivado do
dado. O negócio analisa o dado cru para obter tendência que tenha sentido. Com base nestas tendências, a
companhia pode planejar ou modificar suas estratégias. Por exemplo, o varejista identifica os produtos
preferidos pelos clientes e marca os nomes analisando o padrão de compras e mantendo um inventário
daqueles produtos. Efetivamente esta analise de dados não apenas estende estes benefícios para um negócio
que já exista, mas também cria oportunidades potencias para novos utilizando informações de forma
criativa.

Figura 4 - Referência a Armazenamento.


Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Evolução da arquitetura de armazenamento.


Historicamente as organizações possuem computadores centralizados, com as informações armazenadas em
devices (rolos de fitas, discos) em seus data centers. A evolução dos sistemas abertos, sua acessibilidade e
facilidade de desenvolvimento tem tornado possível para unidades de negócios/departamentos obter seus
próprios servidores e storages. Em uma implementação simples de um sistema aberto, o storage era
tipicamente interno ao servidor. Este device de storage poderia não ser capaz de compartilhar arquivos com
outros servidores. Esta arquitetura era chamada de server centric storage arquitheture. Nesta arquitetura
cada serever tinha um número limitado de devices de storage e nenhum trabalho administrativo, do tipo
manutenção do servidor ou aumento da capacidade de armazenamento, resultando em não disponibilidade
de informação. A proliferação de servidores departamentais em uma empresa, resultou em informações
desprotegidas, não administradas, fragmentada, isolada aumentando o custo de operação.
Para superar estes desafios, a arquitetura de storage foi envolvida a partir do server centric para o
information centric arequitheture. Nesta arquitetura, os devices de storage são administrados de forma
centralizada e independente dos servidores. Esta de administradas de forma centralizada são
compartilhadas com múltiplos servidores. Quando um novo servidor é entregue no ambiente, o storage é
assinalado a partir dos mesmos devices de storage compartilhados. A capacidade de compartilhar storage
pode ser aumentada dinamicamente somando-se mais devices de storage sem impactar na disponibilidade de
informações. Nesta arquitetura a administração da informação é mais fácil e tem menor custo.
A arquitetura de storage e sua arquitetura continuam a se desenvolver, o que habilita as organizações a
consolidar, proteger, otimizar e influenciar seus dados a alcançar um retorno em termos de bens de
informação.
Figura 5 - Evolução da arquitetura de armazenamento.
Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Referência a data center.


As organizações mantém data centers para obter capacidade de processamento de dados centralizados
através da organização. Data center armazena e mantem grandes volumes de dados. A infraestrutura do data
center inclui componentes de hardware, tipo computadores, sistemas de armazenamento de dados, devices
de redes, backup poderoso e também controle do ambiente do tipo ar condicionado, sistema de combate a
incêndio, ar condicionado com controle de umidade relativa. Também inclui um grande número de software
do tipo aplicações sistemas operacionais e administração de software. Grandes organizações frequentemente
mantém mais de um data center para distribuir a carga do processamento de dados e providenciar backup
num evento de desastre envolvendo um dos data centers.
São cinco os elementos essenciais para o funcionamento de um data center:

 Aplicação: Um ou mais programas de computador que provê a lógica computadorizada


de operações.

 Database Management System (DBMS) Ele permite um caminho estruturado para


armazenar o dado de maneira organizada em tabelas inter-relacionadas.

 Host ou Computador: Uma plataforma de computador que executa as aplicações e o


banco de dados.

 Rede: Um caminho para o dado que facilita a comunicação através de vários devices de
rede.

 Storage: Uma device que armazena o dado de forma persistente para uso subsequente.

Estes elementos chave são frequentemente vistos e administrados como entidades em separado, mas todos
eles devem trabalhar em conjunto para endereçar as necessidades de processamento de dados.
Figura 6 - Referência a data center.
Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Características chave de um data center.


Manter as atividades sem interrupção dos data centers é fundamental para a sobrevivência e sucesso da
empresa. Embora as características mostradas nos slides sejam aplicáveis a todos os elementos da
infraestrutura do data center, o foco aqui é nos sistemas de armazenamento.
•Disponibilidade: um data center deve assegurar a disponibilidade de informações para quando forem
requisitada. A não disponibilidade de informações poderia custar milhões de dólares por hora às empresas,
como os serviços financeiros, de telecomunicação de comercio eletrônico.
•Segurança: Os data centers devem estabelecer políticas, procedimentos e integração dos principais
elementos para evitar acesso não utorizado às nformações.
•Escalabilidade: o crescimento nos negócios geralmente pede implementação e mais servidores, novos
aplicativos e base de dados extras. Os recursos do data center devem se expandir baseados nas exigências,
sem interromper as operações dos negócios.
•Desempenho: todos os elementos do data center devem oferecer um desempenho ideal baseado nos níveis
de serviços exigidos.
• Integridade dos dados: a integridade dos dados refereâ¿Âse aos mecanismos, como os códigos de
correção de erros ou paridade de bits, que asseguram que os dados sejam armazenados e recuperados da
mesma forma que foram recebidos.

Figura 7 - Características chave de um data center.


Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Administração do data center.


Administrar um moderno e complexo data center envolve muitas atividades. As atividades chave de
administração incluem:

 Monitoramento: é o processo contínuo de coleta de informações de vários elementos e


serviços executados no data center. Os aspectos do data center que são monitorados
incluem segurança, performance, acessibilidade e capacidade.
 Relatórios são feitos periodicamente sobre os recursos de performance, capacidade e
utilização. As atividades de reporte ajudam a estabelecer ajustes e justificativas de custos
associados com as operações de dados.

 Abastecimento é o processo de providenciar o hardware, o software e outros recursos


requeridos para o funcionamento do data center. Atividades de provisionamento
primariamente incluem administração de recursos para se conseguir a capacidade,
disponibilidade, performance, e requisitos de segurança.

Virtualização e cloud computing têm mudado drasticamente a maneira como a infraestrutura do data center
é construída e administrada. As organizações têm implantado rapidamente a virtualização em vários
elementos do data center para otimizar sua utilização. Mas continuamente a pressão de custo no data center
e as solicitações do processamento de dados têm resultado na adoção do cloud computing.

Figura 8 - Administração do data center.


Fonte: Module 1: Introduction to Information Storage. Copyright © 2012 EMC Corporation.

Resumo.
Neste módulo você estudou a descrição da quantidade de dados que são gerados por indivíduos e por
negócios. Foi visto também que em ambos os casos, o processamento dos dados é direcionado para a
construção de informações envolvendo os dados. Foi explicado que os negócios analisam o dado para
identificar o significado das tendências. Neste módulo também foi descrito a evolução da arquitetura do
storage a partir da arquitetura de um servidor centralizado para a arquitetura de informação centralizada. Foi
visto também a descrição dos cinco elementos chaves do data center e a lista de suas principais
características.

Backup de Dados
O objetivo deste tópico é tratar das técnicas de Backup mais comumente utilizadas nas empresas para
garantir a possibilidade de restore em situações de perda de dados ou recursos computacionais.
NESTE TÓPICO

NESTE TÓPICO

Backup de sistema.
Arquitetura.
Capacidade de guardar os dados do sistema.
Agilidade do backup.
Recursos para o backup.
Janela de backup.
Compartilhamento de recursos.
Definição do backup.
Administração de recursos.
Resumo.
Referências
Marcar
tópico

Este tópicoo tem foco nas técnicas de Backup mais comumente utilizadas nas empresas para garantir a
possibilidade de restore em situações de perda de dados ou recursos computacionais necessários para a
continuidade dos negócios. Dirigentes devem ser claros para que as soluções sejam objetivas.

Conceituar Backup

Backup de sistema.
A criação de uma arquitetura de backup é uma tarefa complexa devido a heterogeneidade dos elementos que
o compõe. O objetivo principal é realizar backup dos sistemas em produção mantendo-os disponíveis para a
necessidade da recuperação dos dados armazenados.
Para este objetivo fundamental a ser atingido, diversos vetores técnicos e organizacionais devem ser
considerados e, como não poderia deixar de ser, temos uma questão de concorrência por disponibilidade de
recursos.
Guardar as informações do sistema

Arquitetura.
Para que decisões possam ser tomadas com assertividade e coerência é necessário que todos os fatores
envolvidos no backup corporativo sejam entendidos e levados em consideração. Vamos a seguir abordar
estes vetores.
Recursos de infraestrutura : A infraestrutura de backup é composta por diversos componentes como os
drives, mídias, a library, o servidor de backup, as interfaces de rede, a rede de dados, o storage de Backup e
inclusive o hardware dos clientes que efetuam backup. Podemos analisar estes recursos sob 3 pontos de
vista: arquitetura, dimensionamento e utilização.
Sob o ponto de vista de arquitetura estes recursos devem ser combinados ou integrados de maneira que
possibilitem a utilização de sua máxima capacidade bem como ofereçam flexibilidade de utilização. É
importante ressaltar que em um backup corporativo, diferentemente do backup de um determinado servidor
ou conjunto discreto de servidores, as condições de trabalho não podem ser precisadas ou totalmente pré-
estabelecidas.
Infraestrutura do backup: A infraestrutura do backup corporativo deve ser criada para ser totalmente
adaptativa possibilitando se conformar as mais diferentes realidades bem como se reconfigurar
continuamente às necessidades dos servidores, volumes e tecnologias. Por isto é importante a elaboração, de
fato, de uma arquitetura de backup e não somente o dimensionamento e aquisição de equipamentos.
A diferença básica entre as duas abordagens (arquitetura e dimensionamento) é que quando olhamos o
problema sob o ponto de vista de arquitetura, nós focamos em como vamos estruturar a solução para atender
a demanda atual e como que os recursos que dimensionamos poderão se adaptar a condições não planejadas.

Arquitetura do sistema.

Capacidade de guardar os dados do sistema.


Sob o ponto de vista de dimensionamento, também existe previamente alguma avaliação de arquitetura, mas
obrigatoriamente quem tem foco em dimensionamento, não se compromete que, além destes recursos serem
configurados de modo a oferecer a capacidade de vazão necessária para que os volumes de backups sejam
backupeados dentro das janelas definidas, estes mesmos recursos sejam reutilizados e continuamente
adaptados e integrados com novos recursos que se fizerem necessários.
Capacidade de guardar os dados dos sistemas.

Agilidade do backup.
De qualquer forma, quando estamos lidando com backup corporativo, além de ser necessária a elaboração
de um projeto de arquitetura, também é imprescindível o correto dimensionamento dos recursos.
Uma variável complexa e importante é a vazão de dados que será necessária, porque ela resume, através de
uma proporção, duas outras variáveis que são, o volume a ser backupeado e a janela de tempo para isto ser
feito.
O último fator é a utilização e nesse caso estamos lidando com a vazão de dados que resume na forma de
resultado o que foi planejado, mas, não se pode ter uma infraestrutura de backup sem contínua medição da
sua utilização.
Para determinar a vazão real é muito importante estar atento que este atributo não é determinado pela
capacidade instalada no servidor e na Library de backup, ou seja, não é determinada pela quantidade de
drives, interfaces e processadores. A vazão é um número mínimo obtido percorrendo-se uma cadeia
integrada que parte do cliente indo até a library de fitas.
Performance do backup.

Recursos para o backup.


Estamos lidando com uma cadeia de componentes que se inicia no disco do cliente e passa pelo barramento,
interface de rede, rede de dados, interface do servidor de backup, Cpu, memória, barramento, interface de
storage, library, drive e mídia. É uma cadeia longa, com muitos componentes e a melhor performance vai
ser determinada pelo pior componente. Isto significa também que em uma mesma instalação poderemos ter
números diferentes em função do cliente.
Este fator é o que determina as vazões reais serem menores do que as especificadas pelos fabricantes dos
equipamentos. Além disso, devemos estar atentos, porque estamos lidando com um sistema de equilíbrio
hiperestático, onde uma variável influencia as outras. Sob o ponto de vista de utilização, nossa obrigação é
configurarmos a programação do backup para atingirmos a capacidade máxima de cada componente. Para
isto temos que garantir que o fluxo de dados vá do cliente à mídia sem interrupção e sem gargalo e em sua
máxima capacidade.
Para obter isso, temos que saturar os diversos componentes da cadeia e sempre ter certeza que esta
saturação é sustentável. Capacidade ociosa significa sub-utilização de recursos, perda de tempo valioso na
janela de backup e principalmente, no caso de backup corporativo, subutilização de recursos
compartilhados.
Este último elemento que adicionamos, a gestão do compartilhamento de recursos é que torna o problema
do backup corporativo mais complexo e diferente dos backups discretos.
No backup corporativo, além da questão da performance, temos que administrar com extrema atenção a
competição por recursos. Na equação do backup corporativo, o excesso de capacidade de alguns recursos
em relação a outros ou um desbalanceamento na programação dos backups, pode fazer com que a vazão de
todos os backups caiam, prejudicando a eficiência do sistema.
Posteriormente descosturaremos cada um dos tópicos que formam os recursos de infraestrutura necessários
para a implementação de uma arquitetura de Backup.

Recursos para o backup.

Janela de backup.
A janela, ou seja, o tempo disponível para backupear um determinado volume de dados parece sempre ser o
foco da programação e do dimensionamento do backup. Isto não deixa de ser uma verdade, entretanto,
quando lidamos com backup corporativo, não pode existir somente uma janela de backup, que normalmente
é relacionada a um evento de calendário (dia, semana, mês, etc.).
A determinação de uma janela esta ligada ao ciclo de atualização de dados de uma aplicação. É claro que o
problema é simplificado pelo fato de termos servidores funcionalmente equivalentes bem como aplicações
que por acompanharem o mesmo processo de negócios da empresa vão ter ciclos muito similares de
atualização.
Todo o backup é uma cópia de segurança de dados que será utilizada quando uma perda ocorrer. Assim,
literalmente, estaremos usando um backup para reestabelecer a condição operacional de um sistema a partir
de uma imagem temporal anterior. Para muitas aplicações significa que poderá haver a perda de dados entre
o momento da imagem armazenada no backup e o momento atual.
Cada aplicação tem um determinado ciclo de operação e funcionamento que determina o período onde os
seus dados são consultados e atualizados. Algumas aplicações tem um ciclo contínuo de operação, ou seja,
funcionam 24 x 7, outras tem um ciclo discreto onde existe horário de total ou quase total inatividade. O
backup, bem programado, deve ser posicionado para capturar e preservar um volume de atualizações que
represente a menor perda aceitável. Assim, não existe um conceito absoluto de quando um backup deve ser
realizado.
De fato esta também é uma equação com diversas variáveis mas que o resultado, sempre, é o que se admite
perder. Um backup será utilizado para recuperar uma situação de perda de dados. A perda de dados diz
respeito com a atualização e não com os dados estáticos ou não modificados.
Janela de backup.

Compartilhamento de recursos.
Para solucionar este problema existem diversas estratégias,técnicas e recursos e o conjunto desta análise
chamamos muito simplificadamente de Política de Backup, que é um termo pequeno para um problema
complexo. Normalmente, se erra ao se fazer uma política de backup, porque o foco da política não é apenas
determinar como será o backup diário, semanal e mensal (completo, incremental ou diferencial) e qual a
política de retenção dos dados.
Quando estabelecemos uma Política de Backup não podemos nos deter simplesmente na tarefa de salvar
dados em fitas magnéticas. Esta tarefa é uma das estratégias que usamos de preservação de dados mas não é
a única. Devemos analisar e especificar como poderemos, através de backups, preservar a disponibilidade
das aplicações através da segurança dos dados armazenados.
Definir uma janela de backup é a tarefa de conciliar o ciclo de atividade da aplicação, com a necessidade de
salvamento de dados versus o impacto de realizar a atividade de backup. Não podemos ignorar que realizar
um backup sempre vai ter um impacto sobre o funcionamento da aplicação e vice e versa, isto é, a
performance do backup será impactado pela concorrência da aplicação.
Quando tratamos de backup corporativo este é um fator importante porque estamos compartilhando recursos
entre diversas aplicações e um backup que seja mais demorado do que deveria vai reter recursos que podem
fazer falta para outra tarefa. No backup corporativo temos sempre que olhar o conjunto e buscar maximizar
a utilização dos recursos.

Compartilhamento de recursos.

Definição do backup.
Cada aplicação vai ter o seu próprio equilíbrio entre segurança de dados e impacto sobre performance e,
também, será beneficiada pela tecnologia de armazenamento que usa, assim para aplicações que funcionam
em storage redundante, tipo Raid-1 ou Raid-5 (menos), podemos ser mais tolerantes, mas, mesmo estes
sistemas não protegem totalmente a aplicação de incidentes de origem lógica e não física.
Ao buscarmos a definição de uma janela de backup, temos que entender o ciclo de operação da aplicação
para obter o entendimento de qual será a estratégia e janela ideal e também, qual o limite de tolerância da
aplicação uma vez que em caso de problema na programação diária, poderemos ter que fazer ou refazer
backups fora da janela ideal.
Sempre existirá a tendência de alinhar a política de backup com eventos de calendário, como dias e
semanas, isso é natural, mas não é correto. Em sistemas que funcionam 24 x 7 não existe o conceito de dia.
Em sistema que funcionam mundialmente na Internet idem. Sistemas comerciais que funcionam 7 x 5
podem ter a necessidade de ter pelos menos 2 backups neste período uma vez que ninguém gostaria de
perder todo um dia de vendas e faturamento, por exemplo.
Após analisarmos todas as aplicações, suas necessidades e definirmos os volumes de dados e as janelas,
obteremos uma certa coincidência de tarefas para um determinado horário. Chamaremos este horário, onde
existe uma intensa concorrência de recursos de tal forma que o atraso em uma tarefa impacta diretamente as
demais, desde a janela crítica de produção, ou janela de produção.
Devemos lembrar que esta é apenas uma convenção e ressaltar que somente backups muito importantes e
totalmente estáveis, seguros e otimizados (performance) podem ser executados nesta faixa de horário. Em
backup corporativo todo o horário do dia é uma janela de produção de alguma aplicação.
Ao levantarmos as necessidades de cada aplicação, devemos ser muito rigorosos para apurar não somente a
vontade do desenvolvedor ou usuário da aplicação, mas, realmente entender a aplicação para podermos ter
flexibilidade de programação do backup.
Rigorosamente, quem deve definir como será o backup é a área de produção e não a de aplicação. É a área
de produção que define os recursos de armazenamento para cada aplicação e é ela que conhece os riscos de
perda de dados. A área de aplicação e usuária são fundamentais para definir o ciclo de operação e
atualização de dados que em função da criticidade e volume vão determinar a técnica de salvamento e o tipo
de mídia mais adequado.
Definição do período de backup.

Administração de recursos.
Como foi dito no princípio, os recursos do backup administrativo iniciam no próprio servidor hospedeiro da
aplicação cliente. Este servidor é parte da infraestrutura de backup porque ele irá executar a principal
atividade no backup que é extrair os dados a serem backupeados.
Por esta razão, administrar o backup corporativo é lidar um ambiente dinâmico onde as condições podem
mudar dia a dia. Não temos condições de garantir que as condições nas quais foi feito o backup de hoje
serão as mesmas do backup de amanhã. Tudo pode mudar. Administrar um backup corporativo significa
tomar diariamente novas decisões em função da realidade corrente. Não existe programação estática no
backup corporativo, seja pela inclusão de novos clientes que podem requerer a reprogramação de vários
backups como também a alteração do volume de dados e performance dos cliente pode alterar
significativamente os resultados.
É necessário então, uma administração contínua dos recursos e uma tomada constante de decisões visando
readequar os recursos, estratégias e programação da própria realidade do dia a dia das empresas ou seja, é
necessário uma equipe para tal atividade.
Resumo.
Este tópicoo abordou as técnicas de Backup mais comumente utilizadas nas empresas para garantir a
possibilidade de restore em situações de perda de dados ou recursos computacionais necessários para a
continuidade dos negócios. Ele focou também nos aspéctos relatovs a agilidade do backup, recursos para o
backup, estabeleceu po cnceito sobre janela de backup, além de mostrar a importância do compartilhamento
de recursos e da política de Backup. Neste tópico também ficou constando que os dirigentes devem ser
claros para que as soluções sejam objetivas.

Restauração de dados
O objetivo deste tópico é abordar processos de recuperação de dados para prevenir a perda dos mesmos.
NESTE TÓPICO
A falta do dado.
Recuperação de dados.
Suporte de armazenamento de dados.
Recuperar dados não é mistério.
Pista para recuperação de dados.
Segurança ao recuperar dados.
Resumo.
Referências
NESTE TÓPICO

A falta do dado.
Recuperação de dados.
Suporte de armazenamento de dados.
Recuperar dados não é mistério.
Pista para recuperação de dados.
Segurança ao recuperar dados.
Resumo.
Referências
Marcar
tópico

Este módulo é focado nas técnicas de restore mais comumente utilizadas nas empresas para garantir a
recuperação de dados em situações de perda dos mesmos, para assegurar a continuidade dos negócios.
A falta do dado.
Todos nós podemos sofrer ou já sofremos a frustrante experiência de “perder” documentos importantes,
porque o computador bloqueou, o sistema ficou destruído num desastre natural ou simplesmente, sem
querer, eliminamos o arquivo. O que muitos não sabem é que, quando um documento se perde, geralmente
só se perdeu de forma temporária. É uma questão de dispor das ferramentas adequadas ou de trabalhar com
especialistas para salvar a informação. Não é como o mistério da meia perdida na máquina de secar roupa.
A recuperação de arquivos não é um mistério.
Quando um arquivo aparece como perdido, para onde vai? Ao contrário do que a maioria das pessoas pensa,
eliminação não implica desaparecimento e o arquivo não desaparece do disco rígido para sempre. É melhor
assumir o computador como uma página de um livro. Quando se elimina um arquivo, a página não se
destrói como se a arrancasse e se passasse por uma trituradora. Em vez disso, apaga-se a entrada do índice
que indica a localização da referida página. A parte que se apaga do computador é uma pequena parte de
informação que indica a localização do arquivo no disco rígido. Mais adiante, o disco rígido escreverá
novos dados sobre a superfície onde se encontra o antigo arquivo.
O indicador, juntamente com os restantes indicadores de cada pasta e arquivo do disco rígido, é guardado
numa secção na parte inicial do disco rígido e é usado pelo sistema operacional para criar a estrutura de
árvore do directório. Ao apagar o arquivo indicador, o arquivo real torna-se invisível para o sistema
operacional, apesar de continuar no mesmo local até que o sistema operacional reutilize o espaço.
O desafio da recuperação de dados é encontrar o índice originário que indica onde se encontram realmente
os arquivos. As empresas de recuperação de dados qualificadas dispõem de engenheiros com experiência
que podem reconstruir a estrutura de arquivos do sistema e impedir que se escreva em cima dos arquivos
perdidos. Dito isto, é uma questão de chegar aos lugares ocultos para recuperar dados que parecem
desaparecidos para sempre.
Para este objetivo fundamental a ser atingido, diversos vetores técnicos e organizacionais devem ser
considerados e, como não poderia deixar de ser, temos uma questão de concorrência por disponibilidade de
recursos.
Recovery

Recuperação de dados.
A recuperação de dados é a ciência que procura reconstruir o sistema de arquivos para que se possa chegar
aos arquivos de dados. Cada sistema operacional tem um sistema de arquivos, que é um método único de
indexar e monitorar os arquivos. Infelizmente para os que perdem dados, os sistemas de arquivos podem ser
muito complexos, razão pela qual pode ser muito difícil localizar arquivos perdidos. Por exemplo, os
sistemas de arquivos utilizados em meios empresariais requerem detalhes de segurança e dados de
operações de acesso. Um bom exemplo disso é um sistema de arquivos baseado em operações, ou um livro-
diário, cujo objetivo consiste em registrar quando se acessa, modifica ou grava cada arquivo, sendo assim
um sistema mais complicado e mais difícil de reconstruir.
As melhores empresas de recuperação de dados desenvolveram ferramentas próprias para os principais
sistemas utilizados atualmente. Forma-se internamente os engenheiros de recuperação para que trabalhem
na recuperação de dados, trabalhando uma série de anos com equipamentos de informática e aprendendo os
dados de nível inferior específicos a cada classe de sistema de arquivos. Em vez de empregar ferramentas de
terceiros e usar um programa “Auto-fix” para todos os erros de sistema de arquivos, que arranje
automaticamente o sistema, os engenheiros são formados para descobrir a causa do erro do sistema e,
posteriormente, organizá-lo em benefício dos interesses do cliente e do cuidado dos dados. Muitos trabalhos
exigem, de fato, que o sistema de arquivos seja reparado manualmente.
Após a reparação do sistema de arquivos, muitas vezes é necessário reparar a estrutura interna dos próprios
arquivos de dados. Tal como os sistemas de arquivos, os arquivos de dados de software para empresas
também são muito complexos atualmente. De fato, alguns dos arquivos mais comuns empreguados todos os
dias pelos usuários são mais complicados internamente que o sistema de arquivos que abriga o próprio
arquivo. Por isso, é importante que as empresas de recuperação de dados desenvolvam utilitários de
reparação de arquivos de software para Word, Excel, PowerPoint, Access, Outlook, e recuperações de bases
de dados nos servidores Microsoft Exchange e Microsoft SQL.
Existem duas fases após a entrada de um dispositivo de armazenamento para efetuar recuperação de dados.
A primeira fase é a de diagnóstico. O objetivo desta fase é mostrar todos os arquivos susceptíveis de serem
recuperados. O método mais seguro é trabalhar sobre uma cópia do disco do cliente, nunca sobre o disco
original. Durante esta etapa, os engenheiros de recuperação podem determinar se o disco requer atenção
especial na câmara limpa, que é um meio ultra-limpo empregue para trabalhar sobre falhas em aparelhos
sensíveis a qualquer contaminação atmosférica, como os discos rígidos. Os técnicos especializados em
técnicas de recuperação electromecânica trabalham para conseguir que o disco fique operacional para poder
copiar os dados em bruto para um servidor isolado. Tal procedimento pode incluir qualquer operação, desde
uma limpeza física dos pratos de discos para que possam girar corretamente, a substituir elementos
elétricos para iniciar o dispositivo e é importante para não continuar a contar com um disco que falha e cujo
estado pode deteriorá-lo.
Após fazer uma cópia dos dados em bruto, os engenheiros especialistas em sistemas de arquivos trabalharão
para reparar as estruturas, e criarão uma lista de arquivos completa que apresenta todos os arquivos e
diretórios do disco. Esta lista de arquivos informará também ao cliente se existem buracos (ou erros de
Input/Output) no próprio arquivo. A última fase é a fase de recuperação. O objetivo desta fase consiste em
copiar os dados recuperados para o suporte de armazenamento solicitado pelo cliente. Durante esta fase o
cliente pode também pedir que se experimentem alguns arquivos no laboratório. Por exemplo, em
dispositivos que sofreram danos sérios no suporte ou no sistema de arquivos, o cliente poderia solicitar que
se experimentassem também alguns dos arquivos mais comuns. O engenheiro que trabalhou na recuperação
tentará abrir alguns dos arquivos e verificar que os dados abrem corretamente.
A diferença básica entre as duas abordagens (arquitetura e dimensionamento) é que quando olhamos o
problema sob o ponto de vista de arquitetura, nós focamos em como vamos estruturar a solução para atender
a demanda atual e como que os recursos que dimensionamos poderão se adaptar a condições não planejadas.
Recuperação de dados.

Suporte de armazenamento de dados.


A análise de como funciona realmente a recuperação de dados demonstra que a ciência da recuperação não é
um mistério. Não há fórmulas secretas nem poções mágicas. No entanto, é importante compreender que a
recuperação de dados é uma disciplina muito complexa que necessita anos de prática para se adquirir
perícia. A recuperação de dados é possível porque há investigação e progresso constantes e pela capacidade
de trabalhar sobre tecnologia de armazenamento de forma paralela ao seu progresso.
Suporte de armazenamento de dados.

Recuperar dados não é mistério.


Recuperar arquivos perdidos por deleção, formatação ou falhas de disco, é uma atividade que exige amplo
conhecimento. Em muitos casos, trabalhar com programas de recuperação de dados desenvolvidos por
terceiros pode ser arriscado. É necessário conhecimento adequado para criação de soluções imediatas que
permitam resgatar arquivos de modo seguro e menos invasivo possível.
Em nenhuma hipótese equipamentos de clientes devem ser enviados para outra localidade. A recuperação
deve utilizar técnicas forenses para recuperar arquivos.
Recomenda-se monitorar constantemente equipamentos que guardam informações importantes. No entanto,
estes procedimentos são praticados apenas por grandes empresas, que podem sofrer enormes prejuízos, caso
tenham que parar qualquer um dos seus servidores com o intuito de recuperar arquivos corrompidos,
deletados etc.
Para verificar recursos e o estado de um hard drive podemos utilizar ferramentas como o Nagios e o HDD
Scan, sendo que o primeiro trabalha em tempo real. Outra possibilidade é a constante verificação do
S.M.A.R.T., um conjunto de rotinas internas presentes nos discos rígidos modernos que exibe informações
sobre seu estado de saúde.
Mesmo em dispositivos não monitorados, é possível detectar uma iminente indisponibilidade de dados
oriunda de danos físicos em mídias digitais. Isso ocorre porque os sistemas operacionais geram mensagens
explícitas de erros durante operações malsucedidas com arquivos danificados. Por outro lado, os file
systems mais modernos, como Zfs e Btrfs, detectam dados corrompidos sem a necessidade de executá-los
previamente.

Recuperar dados não é mistério.

Pista para recuperação de dados.


A perda de arquivos decorrente de erro humano pode ser evitada através de políticas de restrições de acesso,
físico e lógico, de usuários a determinados recursos computacionais. Deve-se, também, dar atenção especial
aos procedimentos de atualização e migração.
Qualquer dispositivo digital que venha sofrer perda de dados deve ser desativado imediatamente. Ao
contrário disso, existem pessoas que os mantém ligados com o intuito de tentar recuperar dados por conta
própria, seguindo "dicas" de fóruns ou usando "programinhas" gratuitos. Estes procedimentos podem
resultar na perda definitiva dos dados.
A restauração de dados perdidos carece de um trabalho complexo que envolve grandes responsabilidades,
portanto, é importante escolher com cautela quem irá executá-lo. Deve-se evitar "profissionais" que cobram
valores baixos ou que fornecem "diagnósticos" em poucos minutos. Eles prejudicam o mercado e não
respeitam os dados dos clientes.
O uso de soluções eficientes e exaustivamente testadas, aliadas a um conjunto de melhores práticas e
recursos modernos, proporcionam mais segurança ao se recuperar arquivos e informações comprometidas,
principalmente, em ambientes críticos onde existem elementos de redundância e alta disponibilidade que
estejam avariados.
Cabe, também, mencionar a necessidade de cautela extra - quanto a intensidade dos procedimentos - durante
a recuperação de arquivos em discos deteriorados que possuem certas limitações em operações de I/O.
Precisa-se respeitar a condição do componente.
Antes de iniciar uma recuperação de arquivos, é preciso analisar e diagnosticar o dispositivo onde as
informações estão guardadas.

Pista para recuperação de dados.

Segurança ao recuperar dados.


Recuperação de dados (data recovery, em inglês) é o conjunto de técnicas e procedimentos específicos,
utilizados por determinados profissionais, para extrair informações em dispositivos de armazenamento
digital (hd, raid, storage etc) que não podem ser acessados, de modo convencional, pelo usuário ou operador
de um sistema.
A inacessibilidade de dados é causada por falhas físicas nas mídias de acondicionamento digital ou por
erros humanos durante sua utilização. No primeiro caso, temos os problemas relacionados a infraestrutura
(falhas elétricas, acomodação inadequada etc) e a degradação de componentes. No segundo caso, podemos
citar os erros humanos, como deleção acidental de arquivos, atualização ou migração malsucedida de
sistema ou ambiente (decorrente de planejamento falho) e violação de conteúdos através de acesso não
autorizado.
A necessidade de usar processos não convencionais para recuperar arquivos deletados ou perdidos, surge a
partir da impossibilidade de se reparar tais dados através de rotinas de restauração ou backup. Outro aspecto
a ser levado em conta é a capacidade das informações serem restauradas em estado idêntico ao momento pré
incidente. Recuperação de dados pode ser um procedimento demasiadamente necessário para empresas que
dependem de uma estrutura de conteúdo atualizada.
A análise geral do dispositivo que contém os dados corrompidos consiste na primeira instância do processo
que visa recuperá-los. Os relatos de pessoas envolvidas no incidente também são de suma importância.
Uma recuperação de dados de alto nível depende de profissionais com vasto conhecimento em sistemas de
arquivos, forense computacional, programação etc capazes de desenvolver softwares, rotinas e
equipamentos, customizados. Técnicas usadas para se recuperar arquivos que foram deletados da lixeira, por
exemplo, são diferentes daquelas usadas para lidar com arquivos de um hd formatado. Inovação, excelência
e seriedade são qualidades essenciais para quem recupera informações.
De qualquer forma, quando estamos lidando com backup corporativo, além de ser necessária a elaboração
de um projeto de arquitetura, também é imprescindível o correto dimensionamento dos recursos.
Segurança ao recuperar dados.

Resumo.
Neste tópico foram apresentrados alguns aspéctos referentes a importância dos dados, também foram vistos
aspéctos relativos a recuperação dos dados. Foram feitas considerações sobre o suporte de armazenamento
dos dados, as técnicas de restore mais comumente utilizadas nas empresas para garantir a recuperação de
dados em situações de perda dos mesmos, abordando inclusive a segurança ao recuperar dados.

Níveis de RAID, métodos de implementação e


técnicas
Este tópico tem como objetivo mostrar RAID e seu uso para promover performance e proteção, alem de
cobrir várias formas de implementação, técnicas e níveis mais comuns de uso de RAID.

NESTE TÓPICO
NESTE TÓPICO

RAID.
Métodos de Implementação RAID.
Componentes do Array RAID.
Técnicas RAID:
Técnica de RAID - Striping.
RAID Technique - Mirroring.
Técnica de RAID - Parity.
Recuperação de Dados na Técnica de Paridade.
Níveis de RAID.
RAID 0.
RAID 1.
RAID 1 + 0.
RAID 3.
RAID 5.
RAID 6.
Comparação RAID.
Níveis do RAID adequado para diferentes aplicativos.
Resumo.
Referências
Marcar
tópico

Este módulo trata de RAID e seu uso para promover performance e proteção.
Ele cobre várias formas de implementação, técnicas e níveis mais comuns de uso de RAID. Este módulo
também descreve o impacto em performance causado pelo uso de RAID.
RAID.
RAID é a técnica de combinar múltiplos disk drives em uma unidade lógica (RAID Set) e ainda promover
proteção, performance, ou os dois.

 Devido aos componentes mecânicos, o disk drive oferece performance limitada.

 Uma unidade de disco oferece uma certa expectativa de vida que é medida em MTBF.

o Por exemplo, se o MTBF de um drive é 750.000 horas e existe 1000 drives na tabela,
então o MTBF da tabela de discos é de 750.000 / 1000, ou seja 750 horas.

 RAID foi introduzido para mitigar este problema.

Hoje em dia os data centers abrigam centenas de disk drives em sua infraestrutura de armazenamento. Disk
drivers são susceptíveis a falhas devido ao seu mecanismo interno e também a fatores do ambiente onde se
encontram, o que resulta em perda de dados. Quanto maior o número de disk drivers numa área de
armazenamento de dados, maior a probabilidade de falha nesta área. Por exemplo, considere uma área de
armazenamento contendo 100 disk drivers, cada um tendo uma expectativa de vida de 750.000 horas de
funcionamento. A expectativa de vida média para esta área é de 750.000 / 100, ou seja, 7. 500 horas. Isto
significa que um disk drive irá falhar a cada 7.500 horas.
RAID é uma tecnologia que permite alavancar vários múltiplos drives como parte de um conjunto que provê
proteção do dado contra falhas do drive. Em geral, a utilização de RAID também aumenta a performance do
sistema de armazenamento, economizando I/Os de múltiplos discos simultaneamente.
Em 1987, Patterson, Gibeson, e Katz da Universidade da California, Berkeley, publicaram um artigo
intitulado " A Case for Redundante Arrays of Inexpensive Disks (RAID)". Este artigo descreve o uso de
pequena capacidade, disk drives baratos como alternativa para suportar largas capacidades de
armazenamento comuns em computadores do tipo main-frames. O termo RAID tem sido redefinido para se
referir a discos independentes que reflitam avanços na tecnologia de armazenamento. A tecnologia RAID
cresceu de um conceito acadêmico para um padrão na industria e é comumente empregada nas áreas de
armazenamento em disco.
Método de Implementação RAID:
Existem dois métodos de implementação RAID: hardware e software.
Métodos de Implementação RAID.
Existem dois métodos de implementação do RAID. Ambos tem seus pontos fortes e fracos. RAID em
software utiliza o software do host para prover as funcionalidades RAID e é implementado ao nível do
sistema operacional. A implementação de RAID em software oferece benefícios em termos de custo quando
comparado com RAID em hardware, porem percebe-se as seguintes limitações:

 Performance: RAID em software afeta a performance do sistema como um todo e ainda


requisita ciclos de CPU para cálculo do RAID.

 Funcionalidades suportadas: RAID em software não suporta todas os níveis de RAID.

 Compatibilidade com o sistema operacional: RAID em software é uma fatia do sistema


operacional, portanto upgrades para o software RAID ou sistema operacional tem que ser
valido para ambos.

Na implementação de RAID em hardware, um hardware de controle especializado é implementado tanto no


host quanto no array. Esta implementação varia de acordo com as interações do array com o host. Controller
card RAID é baseado no hardware do RAID e para o qual um controlador especial também é instalado nos
drivers de disco com os quais está conectado. Os fabricantes também integram controles no "motherboards",
porém o RAID baseado em host não é uma solução muito eficiente no caso de ambientes de data center com
um grande número de hosts.
O controle externo de RAID é um hardware baseado no array do RAID e age como um interface entre o host
e os discos. Ele representa um volume de storage para o host e o host administra estes volumes como se
fossem discos físicos. As funções chave do controlador RAIS são:

 Administrar e controlar agregações de discos.

 Transcrever as requisições de I/O entre discos lógicos e físicos.

 Regeneração de dados em uma eventual falha do disco.


Figura 1 - Métodos de Implementação RAID.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

Componentes do Array RAID.


Um array do RAID é um compartimento com um número de drives de discos que ajudam o hardware a
implementar o RAID. Um subconjunto de discos dentro do array do RAID pode ser agrupado para formar
associações lógicas, chamadas de arrays lógicos também conhecidos como conjunto RAID ou grupo RAID.

Figura 2 - Componentes do Array RAID.


Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

Técnicas RAID:
Três técnicas chaves usadas para RAID são:
 Striping

 Mirroring

 Parity

Técnica de RAID - Striping.


Striping é a técnica de espalhar os dados através de vários disk drives (mais de um) com o objetivo de
utilizar os drives em paralelo. Todos os cabeçalhos de leitura-gravação trabalham simultaneamente,
permitindo que mais dados sejam processados.no menor tempo aumentando a performance, comparado com
a leitura e gravação a partir de um simples disk drive.
Dentro de cada disco no conjunto RAID, um número pré definido de blocos endereçáveis contíguos são
definidos como uma tira (stripe).
O conjunto de tiras alinhadas que atravessam todos os discos do RAID é chamado de "stripe". A figura
abaixo mostra a representação física e lógica do RAID set.
O strip size (também chamado strip depth) descreve o número de blocos em uma faixa (strip) e é o número
máximo de dados que podem ser escritos ou lidos a partir de um único disco no conjunto antes que o
próximo disco seja acessado.assumindo que o dado acessado se inicia no começo da faixa. Tendo o menos
strip size, significa que o dado é quebrado em pequenas partes quando espalhado pelo disco.
O tamanho da listra é um múltiplo do tamanho da faixa em termos do número de discos de dados no set do
RAID. Por exemplo, em um conjunto de cinco discos com um strip de 64K, o stripe é de 320K (64K * 5).

Figura 3 - Técnica de RAID - Striping.


Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

RAID Technique - Mirroring.


Mirroring é uma técnica na qual dados são armazenados em dois disk drivers diferentes, produzindo duas
cópias do dado. No caso de uma falha no disco, o dado continua intacto na cópia do disco que não sofreu
falha e o controlador continua servindo as requisições de dados do host a partir do disco intacto devido ao
espelhamento do par.
Quando o disco for recuperado ou trocado por outro, o controlador copia o dado a partir do disco que não
falhou para seu par espelhado. Esta atividade é transparente para o host.
Para providenciar uma completa redundância o espelhamento habilita uma rápida recuperação de falha de
disco. Entretanto espelhamento de disco provê apenas proteção de dados e não é substituto de backup de
dados. O espelhamento captura constantemente as mudanças do dado, enquanto que o backup captura
imagens de dados em um ponto no tempo
O espelhamento envolve a duplicação do dado - a capacidade total de armazenamento é duas vezes o total
de dados a ser armazenado. O espelhamento é considerado um recurso caro e portanto é utilizado para
aplicações de missão crítica que não pode perder dados. O espelhamento permite boa performance de leitura
porque as solicitações podem ser servidas por qualquer um dos dois discos. Entretanto a performance de
gravação é mais lenta em comparação com aquela feita em um único disco, porque cada solicitação de
gravação manifesta duas gravações físicas em discos diferentes. Em outras palavras, o espelhamento não
apresenta a mesma performance de gravação quando comparado ao striped RAID.

Figura 4 - RAID Technique - Mirroring.


Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

Técnica de RAID - Parity.


Parity é um método de proteção do dado em tiras (Striped) para falha em disco sem o custo do
espelhamento. Um disk drive adicional é adicionado ao conjunto stripe com a finalidade de armazenar a
paridade e um calculo matemático permite a recriação do dado perdido. Parity é uma técnica de redundância
que assegura a proteção do dado sem que seja necessário a manutenção de um conjunto completo do dado
em duplicidade. O calculo da paridade é uma função do controlador RAID.
As informações de paridade podem ser armazenadas em um disco separado, dedicado ou distribuído dentre
os drives do RAID set. Os primeiros quatro discos da figura abaixo, entitulados D 1 a D4 contêm o dado. O
quinto disco intitulado P, armazena a paridade, que neste caso é a soma dos elementos em cada linha.
Figura 5 - Técnica de RAID - Parity.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

Recuperação de Dados na Técnica de Paridade.


Comparado com o espelhamento, implementando a paridade reduz-se consideravelmente o custo associado
com a proteção do dado. Considerando o exemplo de uma configuração de RAID contendo cinco discos,
onde quatro deles guardam dados e o quinto guarda a informação de paridade. Neste caso a paridade
necessita apenas de 20 por cento de espaço em disco extra, entretanto a paridade é recalculada a cada
mudança no dado. Este recalculo consome tempo e afeta a performance do controlador RAID. Note que no
caso da paridade RAID, o calculo do stripe size não inclui a fatia da paridade. Por exemplo em um RAID
parity de cinco discos (4 + 1), com strip size de 64K, o stripe size será 256K (64K * 4).
Figura 6 - Recuperação de Dados na Técnica de Paridade.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

Níveis de RAID.
A performance da aplicação e os requerimentos de disponibilidade dos dados determinam a seleção do nível
de RAID.
Os níveis de RAID são definidos com base nas técnicas de striping, mirroring e parity. Alguns níveis de
RAID utilizam uma simples técnica, embora outros utilizam uma combinação de técnicas. O níveis mais
comuns de serem atualizados estão mostrados na tabela abaixo.
RAID 0.
A configuração de RAID 0 utiliza a técnica de data striping, onde o dado é enfileirado através de todos os
discos do set RAID. Utiliza toda a capacidade de armazenamento do conjunto de discos do RAID. Para ler o
dado, todas as filas são colocados juntos pelo controlador. Quando o número de drives no conjunto aumenta
a performance do conjunto também aumenta em função de mais dados poderem ser lidos ou gravados
simultaneamente. RAID 0 é um boa opção para aplicações com alto volume de I/O. Entretanto se as
aplicações necessitam alta disponibilidade durante falha de drivers, RAID 0 não provê proteção e
disponibilidade.
Figura 8 - RAID 0.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

RAID 1.
RAID 1 é baseado na tecnologia de espelhamento (mirroring). Nessa configuração de RAID o dado é
espelhado para prover tolerância a falha. O RAID 1 consiste de dois disk drivres e tudo é espelhado nos dois
discos. O espelhamento é transparente para o host. Durante uma falha de disco, o impacto na recuperação do
dado em RAID 1 é o menor em todas as implementações RAID. Isto ocorre porque o controlador utiliza o
driver de espelhamento para a recuperação do dado. RAID 1 é apontado para aplicações que necessita de
alta disponibilidade.
Figura 9 - RAID 1.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

RAID 1 + 0.
Muitos datacenters necessitam redundância de dados e performance para seu RAID arrays. RAID 1+0
combina os benefícios de performance do RAID 0 com os benefícios de redundância do RAID 1. Ele se
utiliza das técnicas de espelhamento de e fatias e combina seus dois benefícios. Este tipo de RAID necessita
de um número para de discos, com no mínimo quatro.
RAID 1+0 também é conhecido como RAID 10 (dez) ou RAID 1/0. o RAID 1+0 também é chamado de
espelhamento fatiado. O elemento básico do RAID 1+0 é o espelhamento do par, o que significa que o dado
primeiramente é espelhado e depois as duas cópias são fatiadas através de múltiplos discos do conjunto
RAID. Ao substituir um disco estragado, apenas o espelho é reconstruído. Em outras palavras, o controlador
utiliza os discos sobreviventes para copiar sobre os discos substituídos.
Figura 10 - RAID 1 + 0.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

RAID 3.
RAID 3 fatia os dados para alta performance e utiliza a paridade (parity) para tolerância a falha. As
informações de paridade são armazenadas em um drive dedicado, então o dado pode ser reconstruído se o
drive falhar dentro do RAID set. Por exemplo, em um conjunto de cinco discos quatro são usados para os
dados e um para a paridade, entretanto o total de espaço requerido é 1,25 vezes o tamanho dos dados.
RAID 3 sempre lê e grava fatias completas de dados através de todos os discos porque o drive opera em
paralelo. Não existem gravações parciais para atualização de um ou outra tira na trilha. Similar ao RAID 3,
o RAID 4 fatia o dado para alta performance e utiliza a paridade para impor a tolerância a falha. O dado é
fatiado através de todos os discos com exceção do disco de paridade. A informação de paridade é estocada
em um disco dedicado a isto e pode ser reconstruído se o drive falhar.
Ao contrário do RAID 3, os discos de dados do RAID 4 podem ser acessados de forma independente, logo
elementos específicos de dados podem ser lidos ou gravados em um disco simples sem ter que ler ou gravar
uma trilha inteira. RAID 4 permite boa performance para leitura e razoável performance para gravação.

Figura 11 - RAID 3.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

RAID 5.
RAID 5 é uma implementação de RAID muito versátil.Ele é similar ao RAID 4 porque utiliza o fatiamento
(striping). Os drives também são acessados de forma independente. A diferença entre o RAID 4 e o RAID 5
é o local da paridade. No RAID 4 a paridade é gravada em um disco dedicado, criando um gargalo no disco
de paridade. No RAID 5 a paridade é distribuída por todos os discos evitando o gargalo de gravação no
disco de paridade.
Figura 12 - RAID 5.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

RAID 6.
O RAID 6 trabalha na mesma forma que o RAID 5, exceto que para o RAID 6 existe a inclusão de um
segundo elemento de paridade que permite a sobrevivência em um evento de falha de disco no conjunto
RAID. RAID 6 distribui a paridade através de todos os discos. A penalidade de gravação no RAID 6 é
maior do que no RAID 5, entretanto RAID 5 grava com performance melhor do que RAID 6. A operação de
recarga no RAID 6 é mais demorada do que no RAID 5 devido a presença de dois discos de paridade.
Figura 13 - RAID 6.
Fonte: Fonte: Module 3: Data Protection - RAID. Copyright © 2012 EMC Corporation.

Comparação RAID.
Níveis do RAID

Os níveis do RAID mais utilizados


são:

 RAID 0 - Conjunto fracionados sem tolerância à


falhas.

 RAID 1 - Espelhamento do disco.

 RAID 1 + 0 - RAID agrupado.

 RAID 3 - Conjunto fracionado com acesso paralelo e


disco de paridade dedicado.

 RAID 5 - Conjunto fracionado com acesso ao disco


Níveis do RAID

independente e paridade distribuída.

 RAID 6- Conjunto fracionado com acesso ao disco


independente e paridade distribuída.

Níveis do RAID adequado para diferentes aplicativos.


os aplicativos comuns que se beneficiam dos diferentes níveis do RAID estão:
O RAID 1+0 tem um bom desempenho para cargas de trabalho que utilizam I/Os com gravações curtas
intensivas e aleatórias.
Alguns dos aplicativos que se beneficiam do RAID 1+0 são os OLTPs (Online transaction Processing,
processamentos de transação on-line) com taxas altas, espaço temporário de RDBMS e etc.
O RAID 3 oferece um bom desempenho para aplicativos que utilizam extensos acessos de dados sequenciais
tais como backup de dados ou fluxo contínuo de vídeo.
O RAID 5 é bom para aplicativos com leitura intensiva e aleatória de I/Os e de preferência, para mensagens,
serviços de mídia com desempenho médio e implementações de RDBMS (Relational Database Management
System), nas quais os DBAs (Database Administrators) otimizam o acesso aos dados.

Níveis do RAID adequados para diferentes aplicativos

RAID 1 + 0

 Adequado para aplicativos com perfil de I/O de


gravações curtas, intensivas e aleatória ( gravações
normalmente maiores do que 30%).

 Exemplo: OLTP , RDBMS - espaço temporário.

RAID 3

 Leituras e gravações extensas e sequenciais.

 Exemplo: Backup de dados e fluxo contínuo de


multimídia.

RAID 5 e 6

 Carga de trabalho pequena (gravações normalmente


Níveis do RAID adequados para diferentes aplicativos

menores que 30%).

 Exemplo: e mail, RDBMS - entrada de dados.

Capacidad
Ní Qtd
e
vel e. Degrad
Disponíve Desempen
do Mi ação de
l de ho de Proteção
R n. Gravaç
armazena gravação
AI Dis ão
mento
D cos
(%)

Mais lento
que um
único disco
pois cada
Moder Espelha
1 2 50 gravação
ada mento
deve ser
enviada á
todos os
discos

1
Moder Espelha
+ 4 50 Bom
ada mento
0

Para
gravações
curtas e
aleatórias Paridade
ruim é (suporta
[(n-1)/ razoável. falha de
3 3 Alta
n]*100 Razoável um
para único
extensas disco)
gravações
sequenciais
.

Razoável Paridade
para (suporta
[(n-1)/ extensas falha de
5 3 Alta
n]*100 gravações um
sequenciais único
aleatórias. disco)
Para
Paridade
gravações
(suporta
[(n-2)/ sequenciais Muito
6 4 falha de
n]*100 aleatórias Alta
um dois
ruím a
disco)
razoável.

Resumo.
Este tópico, teve foco em RAID e seu uso para promover performance e proteção. Nele também foi coberto
várias formas de implementação, técnicas e níveis mais comuns de uso de RAID. Neste tópico também foi
descrito os métodos de Implementação RAID, as técnicas RAID: mirroring striping e parity, além da forma
de recuperação de dados na Técnica de Paridade. Neste tópico também foram vistos os níveis de RAID que
são: RAID 0, RAID 1, RAID 1 + 0, RAID 3, RAID 5 e RAID6, além da abordagem sobre o impacto em
performance causado pelo uso de RAID.

Intelligent Storage System


Este tópico tem como objetivo explicar o intelligent storage system, suas características e funcionalidades.

NESTE TÓPICO

NESTE TÓPICO

O Inteligent Storage System.


Principais componentes do intelligent Storage System.
Principais componentes do ISS: Front End.
Principais componentes do ISS: Cache.
Operação de leitura com Cache.
Operação de gravação no Cache.
Gerenciamento do Cache: algoritmos.
Gerenciamento do cache: limite.
Principais componentes do ISS: Back End.
Principais componentes do ISS: Discos físicos.
Tipos de armazenamento ISS:High-end Storage System.
Tipos de ISS: Midrange Storage System.
Resumo.
Referências
Marcar
tópico

Este módulo é focado nos componentes chave do inteligent storage system.


Ele descreve as funções de cada componente incluindo "cache management" e técnicas de proteção. O
módulo também cobre os dois métodos de provisionamento do storage e finalmente descreve os dois tipos
de inteligent storage systems.
O Inteligent Storage System.
O Inteligent Storage System é uma riqueza de funcionalidade do RAID array que permite uma grande
otimização das capacidades dos processos.

 Provê uma larga quantidade de cache emultiplos caminhos de I/O que aumentam a
performance.

 possui um ambiente operacional que provê:

o Gerenciamento do inteligent cache

o Gerenciamento do recurso array.

o Conectividade com hosts heterogêneos.

 Suporta flash drive, provisionamento virtual e uma camada virtual de storage.

Aplicações de missão crítica exigem alto nível de performance, disponibilidade, segurança e escalabilidade.
O disk drive é um elemento vital para armazenamento que governa a performance de qualquer sistema de
armazenamento. Algumas das velhas tecnologias de disk array podem não oferecer a devida performance
devido aos componentes mecânicos dos disk drives. A tecnologia RAID trouxe uma importante contribuição
para ressaltar a performance e segurança no storage, mas os disk drives, mesmo com a implementação
RAID podem não atingir a performance exigida pelas aplicações dos dias de hoje.
Dentro dos avanços da tecnologia, uma nova solução para.storage conhecida como inteligent storage system
tem surgido. Estes inteligent storage systems são uma funcionalidade enriquecida dos RAID array que provê
uma alta e otimizada capacidade de processamento de I/O. Estes sistemas de armazenamento são
configurados contendo uma quantidade de memória (chamada cache) e muitos caminhos de I/O, utilizando
um sofisticado algoritmo, o que coincide com as necessidades de performance para as aplicações de hoje em
dia Estes arrays possuem um ambiente operacional que manipula e gerencia de forma otimizada os recursos
de storage. Suporta flash drives e as modernas tecnologias dos dias de hoje como provisionamento de
storage virtual e automatização do fatiamento de dados para armazenamento. Estas tecnologias têm
permitido avanço em termos de performance, escalabilidade e disponibilidade para os storage systems.
Principais componentes do intelligent Storage System.
Um inteligent storage system consiste de quatro componentes chave, que são: front end, cache, back end e
os discos físicos. Uma solicitação de I/O recebida pelo host é processada na porta front end através do cache
e back end, para permitir armazenamento e obtenção de dado a partir dos discos físicos. Uma solicitação de
leitura pode ser atendida diretamente pelo cache se o dado solicitado se encontrar no cache. Nos modernos
equipamentos de hoje em dia, inteligent storage systems, front end, cache e back end, são tipicamente
integrados em uma única placa chamada storage processor ou diretor.

Figura 1 - Principais componentes do intelligent Storage System.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Principais componentes do ISS: Front End.


O front end prove o interface entre o storage system e o host. Ele consiste de dois componentes: as portas
front end e os controladores do front end. Tipicamente o front end possui controlador redundante para alta
disponibilidade e cada controlador possui múltiplas portas que permitem que um grande número de hosts se
conectem com o ISS.
Cada controlador do front end possui um processador lógico que executa o protocolo de transporte
apropriado, do tipo Fiber Channel, iSCSI, FICON ou FCoE para as conexões do storage O front end
controller roteia o dado do e para o cache via barramentos de dados internos. Quando o cache recebe o dado
para ser gravado, o controlador envia uma mensagem de "acknowledgmente" para o host.
Figura 2 - Principais componentes do ISS: Front End.
Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Principais componentes do ISS: Cache.


Cache é um componente importante que enriquece a performance de I/O em um inteligent storage
system.Cache é uma memória do tipo semi condutor onde o dado é colocado temporariamente para reduzir o
tempo requerido pelo servido de I/O solicitado pelo host.
Cache promove performance para o storage system isolando o host dos retardos associados com os discos
fisicos, os quais são os componentes mais lentos do storage system. O acesso ao dado de um disco físico
normalmente leva em torno de milissegundos, devido aos tempos de seek e latência rotacional. Se o disco é
acessado pelo host para cada operação de I/O, as solicitações são enfileiradas, o que resulta em atraso no
tempo de resposta. Acessando o dado a partir do cache, é muito mais rápido e normalmente leva menos que
um milissegundo. Na gravação, o dado é posto no cache e depois gravado no disco. Após o dado ser
colocado no cache de forma segura, uma mensagem de acknowledgemente é enviado ao host.

Figura 3 - Principais componentes do ISS: Cache.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Operação de leitura com Cache.


Quando ocorre uma solicitação de leitura pelo host, o controlador do storage le o "tag RAM" para
determinar se o dado solicitado se encontra disponível no cache Se o dado solicitado se encontrar no cache,
ele é chamando de "hit" e o dado é enviado diretamente para o host sem qualquer operação com disco. Isto
permite.um tempo de resposta muito rápido para o host (próximo ao milissegundo). Se o dado solicitado não
se encontrar no cache, ele é chamado de "miss" e deve ser lido do disco. O back end acessa o disco
apropriado e obtém o dado solicitado. O dado é então colocado no cache e finalmente enviado ao host pelo
front end. Cache miss aumenta o tempo de resposta de I/O.
Um pré-fatch ou algoritmo de read-ahead é utilizado quando a solicitação de leitura é do tipo sequencial.
Em uma solicitação de leitura sequencial, um conjunto contíguo de blocos é lido. Alguns outros blocos que
ainda não foram solicitados pelo host podem ser lidos e colocados no cache, antecipando o processo de
leitura.Este processo melhora substancialmente o tempo de resposta para leitura para o host. O inteligen
storage system oferece o tempo de pre-ftech de tamanho fixo ou variável.
No pré-fetch fixo, o inteligent storage system obtém os dados em tamanho fixo, isto é útil quando o host
promove solicitações de forma uniforme.
No pré-fetch variável, o inteligent storage system obtém os dados em um total de tamanhos múltiplos,
conforme a solicitação do host. O máximo de pre-fetch limita o número de blocos de dados obtidos a partir
do disco otimizando o barramento de dados do disco para que não se torne dispendioso para outros I/O. A
performance de leitura é medida em termos de leitura de "hit", usualmente expressa em termos de taxa
percentual. Esta taxa é o número de leituras efetivas dividido pelo total de leituras solicitadas pelo host.
Figura 4 - Operação de leitura com Cache.
Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Operação de gravação no Cache.


As operações de gravação com cache apresentam vantagens sobre as operações de gravação diretamente no
disco. Quando um I/O é gravado no cache e aceito, ele está completo no menor tempo (pela perspectiva do
host) em relação a gravação do mesmo dado diretamente no disco. Gravações sequenciais também oferecem
oportunidade de otimização porque muitas pequenas gravações podem colidir em uma larga transferência
para o disk drive com o uso do cache.
Uma operação de gravação é implementada pelos seguintes caminhos:

 Gravação pelo cache: O dado é colocado no cache e imediatamente gravado no disco ,


sendo que é enviado uma mensagem de reconhecimento para o host. Devido ao fato de
que o dado fica comprometido com o disco assim que chega, o risco de perda do dado é
muito pequeno, mas o tempo de resposta da gravação é maior devido as operações de
disco.
 Gravação pelo back-cache: o dado é colocado no cache e imediatamente uma mensagem
de reconhecimento é enviada ao host. Depois de várias gravações, o dado é
comprometido (de-stage) com o disco. O tempo de resposta da gravação é muito rápido
porque as operações de gravação são isoladas dos retardos por cálculos matemáticos do
disco. Entretanto o não comprometimento do dado é um risco de perda no evento de
falha no cache.

O cache pode ser sobreposto sob certas condições do tipo um tamanho muito grande do I/O. Neste tipo de
implementação, se o tamanho do I/O requerido excede o tamanho pré-definido, a gravação é enviada ao
disco diretamente para reduzir o impacto de uma grande gravação consumir muito da cache área. Isto é
particularmente útil em ambientes onde os recursos de cache são reduzidos e o cache é solicitado para
pequenos I/Os randômicos.

Figura 5 - Operação de gravação no Cache.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Gerenciamento do Cache: algoritmos.


O cache é um recurso finito e caro que necessita de administração apropriada. Mesmo que um inteligent
storage system moderno venha com um grande cache, quando todas as páginas do cache são preenchidas,
algumas páginas necessitam ser liberadas para acomodar novos dados e evitar degradação da performance.
Vários algoritmos de administração são implementados em inteligent storage systems para manterem de
forma proativa um conjunto de paginas e uma lista potenciais páginas a serem liberadas quando solicitado.
Os algoritmos mais comumente utilizados são:

 Last Recent Used (LRU): Um algoritmo que constantemente monitora o acesso de dado
no cache e identifica as paginas que não tem sido acessadas por um longo tempo. LRU
também libera ou marca páginas para reuso. Este algoritmo é baseado no pressuposto de
que o dado não acessado por algum tempo não será solicitado pelo host. Entretanto se a
pagina contem dado que ainda não foi comprometido com o disco, o dado será primeiro
gravado no disco antes da página ser reusada.

 Most Recently Used (MRU): Este algoritmo é o oposto ao LRU, onde as páginas que
foram mais recentemente acessadas são liberadas ou marcadas para reuso. Este algoritmo
se baseia no pressuposto de que páginas recentemente acessadas não serão solicitadas.

Figura 6 - Gerenciamento do Cache: algoritmos.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Gerenciamento do cache: limite.


No preenchimento do cache, o storage system deve tomar ação para limpar as páginas que contém dados
gravados no cache, mas ainda não gravados no disco, no sentido de administrar a disponibilidade de
espaço.A limpeza é o processo de aceitação do dado do cache para o disco. A base do acesso de I/O são as
marcas de preenchimento do cache em termos de nível alto ou baixo, conforme o processo de limpeza do
cache. High watermark (HWM) é o nível de utilização do cache para o qual o storage system inicia a
limpeza dos dados do cache em alta velocidade. Low watermark (LWM) é o ponto para o qual o storage
system para a limpeza do dado para o disco. O nível de utilização do cache direciona o modo como a
limpeza é utilizada:

 Idle flushing: Ocorre continuamente, de forma modesta, quando o nível de utilização do


cache fica entre os watermarks alto e baixo.

 High watermark flushing: É ativado quando a utilização do cache chega perto do


watermak alto. O storage system dedica alguns recursos adicionais para esta limpeza.
Este tipo de limpeza tem um mínimo de impacto no processo de I/O.
 Forced flushing: Ocorre em evento onde um grande I/O atinge o cache e atinge 100 por
cento de sua capacidade, o que significativamente afeta o tempo de resposta do I/O. No
forced flushing as paginas marcadas são liberadas de maneira forçada.

Figura 7 - Gerenciamento do cache: limite.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Principais componentes do ISS: Back End.


O back end promove um interface entre o cache e os discos físicos. Ele consiste de dois componentes, porta
de back end e controlador de back end. O back end controla a transferência entre o cache e os discos
fisicamente. A partir do cahe, o dado é enviado ao back end e então direcionado ao seu destino no disco.
Fisicamente os discos são conectados às portas do back end. O controlador do back end se comunica com os
discos quando executa leitura e gravação e também provê, de forma limitada, armazenamento temporário de
dado. O algoritmo implementado no controlador do back end provê detecção e correção de erro durante toda
a funcionalidade RAID.
Para uma alta proteção e disponibilidade de dado, o storage system é configurado com dois controladores e
múltiplas portas As configurações provêm um caminho alternativo para os discos físicos em evento de falha
em controle ou porta. Múltiplos controladores também facilitam o "load balance".

Figura 8 - Principais componentes do ISS: Back End.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.
Principais componentes do ISS: Discos físicos.
Discos físicos são conectados no back end no controlador do storage e provê um armazenamento de dados
persistente. Hoje em dia, o inteligent storage system provê suporte para uma variedade de disk drives com
diferentes tipos e velocidades, como FC, SATA e Flas drives, eles também suportam o uso de um mix de
Flash, FC ou SATA dentro do mesmo array.

Figura 9 - Principais componentes do ISS: Discos físicos.


Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Tipos de armazenamento ISS:High-end Storage System.


High-end astorag systems se referem a tabelas do tipo ativo - ativo e são geralmente montadas em grandes
empresas. Estes sistemas são desenhados com um grande número de controladores e memória cache. Um
ativo - ativo array implica que o host pode executar I/Os através dos controladores disponíveis, conforme:

 Grande capacidade de armazenamento.

 Grande quantidade de caches para otimizar os serviço de I/O para o host.

 Arquitetura tolerante a falha para garantir a disponibilidade do dado.

 Conectividade com computadores mainframe e do tipo open system.

 Disponibilidade para múltiplas portas front-end e protocolos de interface para um grande


número de host.

 Disponibilidade de múltiplos back-end fiber channel ou controladores de RAID SCSI


para administrar os processos de disco.

 Escalabilidade para suportar a crescente solicitação de conectividade, performance e


capacidade de storage.

 Habilidade para administrar um grande número de I/Os vindos das aplicações em hosts.

 Suporte para replicação de dados tanto local como remoto.

Em soma, estas funcionalidade do high-end storage systems são extremamente necessárias para aplicações
de missão crítica em grandes empresas.
Figura 10 - Tipos de armazenamento ISS:High-end Storage System.
Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Tipos de ISS: Midrange Storage System.


Midrange storage systems também se referem a array ativo-passivo e são melhor alocados em empresas de
tamanho pequeno ou médio. Eles também provêm uma ótima solução de armazenamento por um custo
menor. Num array ativo-passivo, o host pode executar I/Os apenas através do controlador que seja dono do
LUN. O host pode executar leituras ou gravações no LUN apenas através do caminho do controlador A,
porque o controlador A é o dono da LUN. O caminho do controlador B continua passivo e nenhuma
atividade de I/O é executada por ele.
Midrange storage system é desenhado tipicamente com dois controladores, cada um contem interface com o
host, cache, controlador RAID e interface com disk drive.
Midrange array é desenhado para receber as solicitações de pequenas e médias empresas, pois ele contem
uma menor capacidade de armazenamento e cache do que high-end storage arrays. Eles também suportam
array based local ou remoto.
Figura 11 - Tipos de armazenamento ISS: Midrange Storage System.
Fonte: Fonte: Module 4: Intelligent Storage System. Copyright © 2012 EMC Corporation.

Resumo.
Neste tópico você estudou o Inteligent Storage System, os principais componentes do ISS: Front End e
Cache, as operação de leitura e gravação no Cache, além das funções de cada componente do ISS incluindo
"cache management" e técnicas de proteção. Você viu ainda módulo os dois métodos de armazenamento
ISS:High-end além das operação de leitura e gravação com Cache e finalmente foi apresentada a descrição
dos dois tipos de inteligent storage systems.

Storage Area Network (SAN)


O objetivo deste tópico são os protocolos IP SAN assim como SCSI (iSCSI) da rede da área de estocagem.

NESTE TÓPICO
NESTE TÓPICO

Driveres para IP SAN:


Protocolo IP SAN: iSCSI.
Components de iSCSI.
Topologias iSCSI: iSCSI nativo.
Topologias iSCSI: iSCSI Bridged.
Combinando conectividade FC e iSCSI nativo.
iSCSI Protocol Stack.
Detecção de iSCSI.
Nome iSCSI.
Protocolo IP SAN: FCIP.
Topologia FCIP.
Pilha de protocolo FCIP.
Resumo.
Referências
Marcar
tópico

Este módulo é focado nos protocolos IP SAN assim como SCSI (iSCSI), componentes de infraestrutura e
topologia.
Driveres para IP SAN:
 IP SAN transporta o dado ao nível de bloco na rede IP.

 IP se posiciona como uma opção na rede de armazenamento porque:

o Fácil administração.

o Uma infraestrutura de rede existente pode ser estratégica.

o Custo reduzido comparado ao investimento de uma nova FC SAN com hardware e


software.

o Suporta interoperabilidade de múltiplos vendedores.

o Muitas soluções de disaster recovery a longa distância já são baseadas em redes IP.

o Muitas opções de segurança maduras e robustas estão disponíveis para redes IP.
Dois protocolos que alavancam IP como mecanismo de transporte são internet SCSI (iSCSI) e fiber channel
sobre IP (FCIP). Esta lição cobre os drivers para os componentes IP, SAN e iSCSI, topologia, protocolo de
pilha e métodos de descoberta.

Uma SAN tradicional habilita a transferência de blocos sobre Fiber Channel e promove alta performance e
escalabilidade. Estas vantagens da FC SAN vêm com o custo adicional na compra dos componentes de FC,
tipo FC HBA e switch. As organizações tipicamente já possuem uma infraestrutura de rede IP, a qual é
utilizada para a storage netwirking.
Os avanços na tecnologia têm habilitado o IP para transporte de blocos de I/O sobre a rede IP. Esta
tecnologia de transporte de blocos de I/O refere-se ao IP SAN. IP é uma tecnologia madura e utilizar IP
como rede de armazenamento promove várias vantagens. Ip oferece fácil administração e melhor
interoperabilidade. Quando o bloco de I/O corre sobre IP, a infraestrutura de rede pode ser estrategicamente
administrada, o que é mais econômico do que investir em uma novo hardware e software de FC SAN. Em
adição, muitas opções de segurança maduras e robustas estão disponíveis agora para redes IP. Muitas
soluções de longa distancia para disaster recovery (DR) são baseadas em redes IP. Com o IP SAN, as
organizações podem estender geograficamente suas infraestruturas de storage.

IP SAN transporta o dado ao nível de bloco na rede IP

IP se posiciona como uma opção na rede de armazenamento porque:

o Fácil administração

o Uma infraestrutura de rede existente pode ser estratrégica.

o Custo reduzido comparado ao investimento de uma nova FC SAN com hardware e software.

o Suporta interoperabilidade de múltiplos vendedores.

o Muitas soluções de disaster recovery a longa distância já são baseadas em redes IP.

o Muitas opções de segurança maduras e robustas estão disponíveis para redes IP.

Protocolo IP SAN: iSCSI.


O iSCSI é um encapsulamento baseado no host para o I/O SCSI que utiliza um cartão Ethernet NIC ou um
iSCSI HBA no host. O iSCSI é um protocolo baseado am IP que estabelece e administra conexões entre o
host e o storage sobre IP. o iSCSI encapsula os comandos SCSI e os dados num pacote IP e os transporta
utilizando TCP/IP. O iSCSI é convenientemente adaptado para conectar servers no storage porque ele é
relativamente barato e fácil de implementar, especialmente em ambientes onde não exista uma FC SAN.

Protocolo com base em ip que é utilizado para conectar host e armazenamento.

Encapsula os comandos e dados de SCSI em pacote de IP e os transporte utilizando TCP/IP.

Components de iSCSI.
O host (ou iniciador), storage (ou alvo), e uma rede IP são os componentes chave para o iSCSI.
Se um storage com capacidade iSCSI for disponível, então um host com o inicializador iSCSI pode se
comunicar diretamente com o array do storage sobre uma rede IP. Entretanto numa implementação que
utiliza um FC array existente para comunicações necessita de um gateway iSCSI. Estas devices fazem a
conversão dos pacotes IP para os FC e vice-versa, alem de uma ponte de conectividade entre os ambientes
IP e FC.

Iniciador iSCSI

o Exemplo: iSCSI HBA

Destino de iSCSI

o Storage array com porta iSCSI

o Gateway iSCSI – Permite a comunicação com storage array FC

Rede IP

Figura 3 - Componentes de iSCSI.


Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation.

Topologias iSCSI: iSCSI nativo.


Duas topologias de implementação iSCSI são nativa ou em ponte. A topologia nativa não contem nenhum
componente de FC. O iniciador deve tanto atachar diretamente os alvos ou conectar através da rede IP.A
topologia em ponte habilita a coexistência de FC com IP providenciando a funcionalidade do ambiente
iSCSI-to-FC. Por exemplo, os iniciadores podem existir em um ambiente IP enquanto o storage permanece
em ambiente FC.
Os componentes FC não são requeridos por conectividade iSCSI se um iSCSI-enabled array é entregue. Na
figura abaixo, o array tem uma ou mais portas iSCSI configuradas com endereço IP e conectada em um
shitch Ethernet padrão. Antes que um iniciador seja logado na rede, ele pode acessar os LUNs disponíveis o
storage array. Uma simples porta de array pode servir múltiplos hosts ou iniciadores, da mesma forma que a
porta array pode manipulara o total do tráfego no storage gerado pelo host.

Os iniciadores iSCSI estão conectados diretamente ao storage array ou através da rede IP.

o Nenhum componente FC.

Storage array tem porta iSCSI.

Cada porta iSCSI é configurada com o endereço de IP.

Figura 4 - Topologias iSCSI: iSCSI nativo.


Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation.

Topologias iSCSI: iSCSI Bridged.


Uma implementação de ponte iSCSI inclui componentes FC em suas configurações. A figura abaixo ilustra
um FC storage array usado para serviços de conectividade do host através de iSCSI.
Neste caso o array não tem nenhuma porta iSCSI. Entretanto, uma unidade externa, chamada gateway ou
roteador multiprotocolo deve ser usado para facilitar a comunicação entre o iSCSI hoet e o storage FC. O
gateway converte os pacotes IP para as janelas FC e vice-versa. O equipamento de ponte contem tanto
portas FC quanto portas Ethernet para facilitar a comunicação entre os ambientes IP e FC. Na
implementação de ponte iSCSI, o iniciador iSCSI é configurado de acordo com o endereço IP do gateway
de acordo com seu endereço de destino. Por outro lado, o gateway é configurado como um iniciador FC para
o storage array.

O gateway iSCSI é utilizado para permitir a comunicação entre o host iSCSI e armazenamento FC.

O gateway iSCSI funciona como ponte entre FC e a rede IP.

o Converte pacotes de IP em estruturas FC e vice-versa.

O iniciador iSCSI é configurado com o endereço de IP do gateway como seu destino.

O gateway iSCSI gateway é configurado como indicador de FC para o storage array.


Figura 5 - Topologias iSCSI: iSCSI Bridged.
Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation.

Combinando conectividade FC e iSCSI nativo.


A topologia mais comum é a combinação do FC e do iSCSI nativo. Tipicamente, o storgae array vem com
ambas as portas FC e iSCSI, possibilitando conectividade tanto FC quanto iSCSI no mesmo ambiente, como
mostra a figura abaixo.

O array contém as portas FC e iSCSI

o Permite as conectividades iSCSI e FC em um mesmo ambiente

o Não é necessário nenhum dispositivo de ponte.

Figura 6 - Combinando conectividade FC e iSCSI nativo.


Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation.

iSCSI Protocol Stack.


A arquitetura do iSCSI é baseada no modelo cliente/servidor. A figura abaixo mostra um modelo de uma
camada do protocolo iSCSI e retrata a ordem de encapsulamento dos comandos SCSI para a entrega através
de seu carregador físico.
SCSI é um protocolo de comandos que trabalha na camada de aplicação do modelo Open System
Interconnection (OSI). Os iniciadores e os alvos utilizam comandos SCSI e respondem um para o outro. O
bloco de descrição do comando SCSI , o dado, e as mensagens de status são encapsulados dentro do TCP/IP
e transmitidos através da rede entre os iniciadores e os alvos.
iSCSI é um protodolo da camada de sessão que inicia uma sessão confiável entre o device que reconhece os
comandos SCSI e o TCP/IP. O interface da camada de sessão do iSCSI.é responsável por manipular login,
autenticação, descobrir alvos e administrar sessão. O TCP é utilizado com o iSCSI na camada de transporte
para prover uma transmissão confiável.
O TCP controla o fluxo de mensagens, janelas, error recovery e retransmissão. O TCP confia na fila da rede
do modelo OSI para promover um endereçamento global e conectividade. O protocolo Layer 2 na camada
de dado, deste modelo, habilita comunicação nó a nó para cada um através de rede fisicamente separada.

Figura 7 - iSCSI Protocol Stack.


Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation.

Detecção de iSCSI.
Um iniciador deve descobrir o local de seus alvos, na rede, e o nome dos alvos disponíveis para ele antes de
estabelecer a sessão. Esta descoberta pode ter lugar através de dois caminhos: SendTarget discovery e o
Internet Storage Name Service ( iSNS).
No modo SendTarget discovery o iniciador é configurado manualmente com o portal dos targets na rede
para estabelecer a sessão discovery. O iniciador edita os comandos do SendTarget e o portal do target na
rede responde com os nomes e endereços para os targets disponíveis ao host.
O iSNS habilita automaticamente o discovery dos devices ISCSI na rede IP.Os iniciadores e os alvos podem
ser configurados para se auto registrarem no servidor iSNS para uma lista de alvos disponíveis.

Para a comunicação de iSCSI, o iniciador deve detectar a localização e o nome do destino em uma rede.

A detecção de iSCSI acontece de duas formas:

o Detecção SendTargets

 O iniciador é configurado manualmente com o portal de rede de destino

 O iniciador emite o comando SendTargets, o destino responde com os parâmetros necessários

o Serviço de nome de armazenamento da Internet (iSNS – Internet Storage Name Service)

 Os iniciadores e destinos são registrados com o servidor iSNS

 O iniciador pode questionar o servidor iSNS por uma lista de destinos disponíveis.

Nome iSCSI.
Um identificador único iSCSI, para todo o mundo, que é conhecido como iSCSI name, é utilizado para
identificar os iniciadores e os alvos dentro de uma rede iSCSI de modo a facilitar a comunicação. O
identificador único pode ser a combinação dos nomes dos departamentos, aplicações, numero de serie de
ativos, ou qualquer outra marca pode ser utilizada para reconhecer e administrar o device. A seguir temos
dois tipos de nome de iSCSI comumente utilizados:
iSCSI Qualified Name (IQN): A organização deve guardar o nome do domínio registrado para gerar o iSCSI
Qualified Name. Este nome de domínio não necessita ser ativo para um endereço. Ele apenas precisa ser
reservado para que outras organizações não utilizem o mesmo nome de domínio para gerar iSCSI name. Um
dado é incluido no nome para evitar conflitos em potencial causado pela transferência do nome do domínio.
Um exemplo de IQN:
iqn.2008-02.com.example:optional_string
O "optional_string" pode ser um numero serial , número de ativo, ou qualquer outro identificador da device.
O iSCSI Qualified Name habilita o administrador do storage assinalar nome inteligível para o device do
iSCSI e, portanto administrar o device de maneira mais fácil.
Extended Unique Identifier (EUI): O EUI é um identificador global e único baseado no padrão de nome
IEEE EUI-64. Um EUI é composto do prefixo do eui seguido de 16 caracteres hexadecimais, do tipo:
eui.0300732A32598D26.
A parte do nome com 16 caracteres incluem 24 bits para o nome da empresa assinalado pelo IEEE e 40 bits
para um ID único, do tipo número de série. Isto permite um nome mais amigável porque resulta um nome
iSCSI do tipo eui seguido do hexadecimal WWN.
Os caracteres especiais permitidos em ambos os casos são pontos, traços e espaços em branco.

O nome iSCSI é um identificador iSCSI exclusivo utilizado para identificar os iniciadores e destinos dentro
de uma rede iSCSI

Dois tipos comuns de nomes iSCSI são:

o iqn: nome qualificado iSCSI

 iqn.2008-02.com.example:optional_string

o eui:identificador exclusivo estendido

 eui.0300732A32598D26

Protocolo IP SAN: FCIP.


FC SAN provê uma infraestrutura altamente performante para um movimento de dado localizado. As
organizações estão procurando transporte de dados para longas distâncias entre suas SANs em várias
regiões geográficas. Um dos melhores modos de alcançar este objetivo é interconectar as SANs
geograficamente dispersas através de links de alta velocidade. Esta abordagem envolve o transporte de
blocos de dados FC sobre uma infraestrutura IP. FCIP é um protocolo de tunelamento que permite ilhas FC
SAN distribuídas para serem interconectadas sobre uma rede baseada em IP. Isto utiliza um par de pontes
(FCIP gateways) que se comunicam que se comunicam sobre o protocolo de transporte TCP/IP. O FCIP
conecta duas FC SANs e as mistura como uma simples construção.
O padrão FCIP ganhou rapidamente aceitação devido a sua maneabilidade, custo - eficiência na forma de
misturar as duas palavras: FC SAN, alem de se incorporar facilmente a uma infraestrutura IP já existente.
Como resultado, a organização agora tem o melhor caminho para proteger, armazenar e movimentar seus
dados, alavancando seus investimentos na infraestrutura IP. FIC é amplamente utilizado nas
implementações de disaster recovery para as quais existe a duplicação de dados para um site alternativo
distante.

Protocolo com base em IP utilizado para conectar as ilhas FC SAN distribuídas.

Cria links virtuais FC pela rede IP existente utilizada para transportar dados FC entre FC SANs diferentes.

Encapsula as estruturas FC em pacote de IP.

Oferece solução de recuperação de falhas.

Topologia FCIP.
As SANs, geograficamente dispersas são misturadas, a camada 2 existe de forma completamente funcional
na SAN. A camada 2 da rede é um padrão da estrutura da SAN. Estas estruturas fisicamente independentes
são misturadas em uma única estrutura com link IP entre elas.
Um gateway FCIP é conectado a cada camada através do padrão de conexão FC. O FCIP gateway, na ponta
de uma rede IP encapsula as molduras FC no pacote IP. O gateway, na outra ponta, remove o invólucro IP e
envia os dados da camada 2. A estrutura trata estes gateways como switch da camada 2. Um endereço IP é
assinalado para a porta no gateway que está conectado a uma rede IP. Depois que uma conectividade IP é
estabelecida as duas camadas independentes são misturadas em uma única camada. Quando ocorre a mistura
de duas camadas, todos os switchs devem ter um único domínio ID e as camadas devem conter um único
nome de zona. O FC endereçado em cada lado do link é exposto para o outro lado e o zoneamento ou
mascaramento pode ser feito para qualquer entidade do novo ambiente.

Figura 11 - Topologia FCIP.


Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation.

Pilha de protocolo FCIP.


O protocolo de pilha FCIP é mostrado na figura acima. As aplicações geram dados e comando SCSI que são
processados por várias camadas da pilha do protocolo. A camada superior do protocolo SCSI incluem o
programa do driver SCSI que executa comandos de leitura e gravação. Abaixo da camada SCUSI encontra-
se a camada do Fiber Channel Protocol (FCP), que é uma camada de fibra simples que é carregada como
SCSI. A camada FCP situa-se no topo da camada de transporte do Fiber Channel. Isto permite que os frames
FC rodem de forma nativa dentro do ambiente SAN. Em adição, os frames FC podem ser encapsulados em
pacote IP e enviados para a SAN remota sobre a rede IP. A camada FCIP encapsula os frames FC na carga
IP e os passa para a camada TCP. As camadas TCp e IP são usadas para transportar as informações
encapsuladas sobre Ethernet, Wireless, ou outra media que suporte o tráfico TCP/IP.

Figura 12 - Pilha de protocolo FCIP.


Fonte: Fonte: Module 6: IP SAN and FCoE. Copyright © 2012 EMC Corporation

Resumo.
Este tópico explicou deforma sucinta os driveres para IP SAN, o protocolo IP SAN: iSCSI, além dos
components de iSCSI, bem como a topologias iSCSI: iSCSI nativo, iSCSI: iSCSI Bridged e a combinação
da conectividade FC e iSCSI nativo. Neste tópico também foram abordados o nome iSCSI, o protocolo IP
SAN: FCIP, a topologia FCIP e a pilha de protocolo FCIP.

Network-Attached Storage (NAS)


Este tópico tem como objetivo abordar os benefícios e componentes da network-attached storage (NAS).
Ele também foca no protocolo NAS file-sharing e várias implementações de NAS.

NESTE TÓPICO

NESTE TÓPICO

Network Attached Storage (NAS).


Evolução da technologia file sharing.
O que é NAS.
Servidor de uso geral vs Dispositivos NAS.
Benefícios do NAS.
Componentes do NAS.
Protocolos de compartilhamento de arquivos NAS.
Sistema comum de arquivo Internet.
Sistema de arquivo de rede.
NAS I/O Operation.
Resumo.
Referências
Marcar
tópico

Este tópico cobre a comparação de propósito geral do file server e NAS. Também descreve os componentes
chave do NAS, protocolos file-sharing (NFS e CIFS) e operações de I/O NAS.
Network Attached Storage (NAS).
O file sharing permite aos usuários compartilhar seus arquivos com outros usuários, que tem interesse
comum no conteúdo do arquivo. No ambiente file-sharing, o usuário que cria o arquivo (o criador ou dono
do arquivo) determina o tipo de acesso a ser dado aos outros usuários ( read, write, execute, append, delete
and list) e controla modificações no arquivo. Quando múltiplos usuários tentam acessar o arquivo
compartilhado ao mesmo tempo, um esquema de proteção é requerido para manter a integridade do dado e,
ao mesmo tempo, tornar possível o compartilhamento.
Alguns exemplos do ambiente file sharing são: File Transfer Protocol (FTP), Distributed File System
(DFS), modelo peer-to-peer e modelo Cliente/Servidor que utiliza protocolo file-sharing e ainda Network
File System (NFS) e Common Internet File System.
FTP é um protocolo cliente/servidor que habilita a transferência de dados sobre uma rede. Um servidor FTP
e um cliente FTP comunicam-se utilizando o TCP como protocolo de transporte.
O Distributed File System (DFS) é um arquivo do sistema que está distribuído entre vários hosts. O DFS
pode prover hostes com acesso direto no arquivo inteiro, enquanto assegura administração eficiente e
segurança do dado.
O protocolo padrão para o cliente/servidor file sgharing, assim como o NFS e CIFS habilita o dono do
arquivo a marcar o tipo de acesso solicitado, como, por exemplo apenas leitura ou leitura e gravação, para
um usuário particular ou grupo de usuários. Utilizando este protocolo, o cliente monta remotamente
arquivos do sistema que são servidores de arquivo disponíveis ou dedicados.
O módulo peer-to-peer (P2P) file sharing usa uma rede peer-to-peer . P2P permite que a máquina do cliente
compartilhe diretamente os arquivos sobre a rede. O clientes utilizam um software de file sharing que
procura por outros clientes peer. Isto, difere do modelo cliente/servidor que utiliza o servidor de arquivo
para habilitar o compartilhamento de arquivos.
NETWORK-ATTACHED STORAGE (NAS)

Durante esta lição serão cobertos os seguintes tópicos:

- Devolução da tecnologia de File Sharing.


- Componentes NAS.
- Protocolos File Sharing NAS.
- Operações de I/O NAS.
Evolução da technologia file sharing.
Os métodos tradicionais de file sharing envolvem cópia dos arquivos para medias portáteis, do tipo flop
diskette, CD, DVD, ou drives USB e enviar isto através de indivíduos que necessitem destes arquivos. Esta
abordagem não é sustentada em ambientes de empresas onde um grande número de usuários de diferentes
locais acessam arquivos comuns.
File shareing baseado em rede prove a flexibilidade de compartilhar arquivo em qualquer distância entre um
grande número de usuários. O file server utiliza a tecnologia cliente/servidor para promover o
compartilhamento de arquivos sobre uma rede. Para endereçar o tremendo crescimento de arquivos de dados
nos ambientes empresariais, as organizações têm desenvolvido um grande número de servidores de arquivos
individuais. Estes servidores são conectados tanto a DAS quanto a SAN-attached storage. Isto resulta na
proliferação de servidores de arquivos e ilhas de servidores e storage que são superutilizadas ou
subutilizadas. Adicionalmente como o ambiente é pobremente escalável, tem alto custo de administração e
alta complexidade, Network-attached storage emerge como solução para estes problemas.
Figura 2 - Evolução da technologia file sharing.
Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.

O que é NAS.
NAS é um dedicado file sharing e storage device de alta performance. NAS habilita seus clientes a
compartilhar arquivos sobre uma rede IP. NAS prove vantagens sobre a consolidação de servers eliminando
a necessidade de múltiplos file servers. Isto também consolida o storage utilizado pelo client em um sistema
simples, tornando isto fácil para o administrador do storage. NAS utiliza a rede e o protocolo file sharing
para prover o acesso aos arquivos de dados. Estes protocolos incluem TCP/IP para transferência de dados e
o Commun Internet File System (CIFS) e o Network File System (NFS) para serviços de arquivos da rede.
NAS habilita ambos, usuários UNIX e Microsoft Windows a compartilhar o mesmo dado.
A device NAS utiliza seu próprio sistema operacional integrando componentes de hardware e software. para
necessidades específicas dos serviços de arquivos. Seu sistema operacional é otimizado para I/O de arquivo
e também executa I/O de arquivo de forma melhor que um servidor de propósito geral. Como resultado uma
device NAS pode servir mais clientes que os servidores de arquivos tradicionais e promove o benefício da
consolidação do server.

Figura 3 - O que é NAS.


Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.

Servidor de uso geral vs Dispositivos NAS.


O device NAS é otimizado para funções de file server, do tipo armazenamento, obtenção e acesso de
arquivos por aplicações e pelo client. Como mostrado na figura abaixo, um servidor de propósito geral pode
ser usado como host para qualquer aplicação porque ele executa um sistema operacional generico.
Diferentemente de um servidor de propósito geral, a device NAS é dedicada ao file serving. Ele possui um
sistema operacional de tempo real dedicado ao file serving utilizando protocolos adequados. Alguns NAS
vendidos suportam funções do tipo clustering nativo para alta disponibilidade.
Figura 4 - Servidor de uso geral vs Dispositivos NAS.
Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.

Benefícios do NAS.
NAS oferece os seguintes benefícios:
Melhoria de eficiência: Nas entrega melhor performance comparado com um servidor de arquivo de
propósito geral porque o NAS utiliza um sistema operacional especializado para file serving. Ele melhora a
utilização de servidores de propósito geral reavaliando-os em termos de operações de file serving.
Melhoria na flexibilidade: Compatível com clientes em ambas as plataformas UNIX e Windows utilizando
protocolos padrão da industria NAS é flexível e pode servir solicitações de diferentes tipos de clientes a
partir de uma mesma fonte.
Storage centralizado: Centraliza o storage de dados para reduzir a duplicidade nas workstations dos clientes,
simplifica a administração de dados e assegura maior proteção dos dados.
Administração simplificada: Provê uma console centralizada que torna possível a administração de arquivos
do sistema de forma eficiente.
Escalabilidade: Escala de forma eficiente com diferentes perfis de utilização e tipo de aplicação de negócio
por causa do desenho de alta performance e baixa latência.
Alta disponibilidade: Oferece replicação eficiente e opções de recovery, permitindo alta disponibilidade.
NAS utiliza componentes de rede redundantes que permitem máximas opções de conectividade.A device
NAS pode utilizar tecnologia de clustering para failover.
Segurança integrada: Assegura segurança, autenticação de usuário e bloqueio de arquivo em conjunção com
os esquemas padrão de segurança na industria.
BENEFÍCIOS DE NAS

Eficiência melhorada
Flexibilidade melhorada
Armazenamento centralizado
Gerenciamento simplificado
Escabilidade
Alta disponibilidade através de cluster nativo e replicação
Segurança - autenticação, autorização e bloqueio de arquivos juntamente com os sistemas padrões de
segurança
Baixo custo
Facilidade de implementação
Componentes do NAS.
Uma device NAS possui dois componentes: NAS head e NAS storage. Em algumas implementações NAS, o
storage pode ser externo ao NAS device e compartilhar com outros hosts. O NAS head inclui os seguintes
componentes:

 CPU e Memória.

 Um ou mais cartões de interface de rede (NICs), que provê conectividade com outro
cliente na rede. Exemplos de NICs incluem Gigabit Ethernet, Fast Ethernet, ATM e Fiber
Distributed Data Interface ( FDDI).

 Um sistema operacional otimizado para administrar as funcionalidades NAS. Ele traduz


solicitações em nível de arquivo em solicitações de blocos de armazenamento e mais,
converte o dado fornecido a nível de bloco em arquivo de dados.

 Protocolos NFS e CIFS para compartilhamento de arquivos.

 Protocolos de storage padrão da indústria e portas para conectar e administrar fisicamente


os recursos de disco , tipo Flash, ATA, SCSI ou FC.
O ambiente NAS inclui clientes acessando device NAS sobre uma rede IP utilizando protocolo para
compartilhamento de arquivos.

Figura 6 - Componentes do NAS.


Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation

Protocolos de compartilhamento de arquivos NAS.


Muitas devices NAS suportam múltiplos protocolos de serviços de arquivos para manusear solicitações de
I/O de arquivos vindos de sistemas remotos. CIFS e NFS são os protocolos mais comuns para
compartilhamento de arquivos. CIFS é utilizado em sistemas operacionais baseados em Microsoft Windows;
NFS é predominantemente utilizado em ambientes UNIX.
Os devices NAS habilitam os usuários a compartilhar dados através de diferentes ambientes operacionais
provê mecanismos que permitem ao usuário migrar de forma transparente de um sistema operacional para
outro.

Figura 7 - Protocolos de compartilhamento de arquivos NAS.


Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.
Sistema comum de arquivo Internet.
Common Internet File Sistem (CIFS) é um protocolo de aplicação cliente/servidor que habilita os programas
do cliente fazer solicitações de arquivos e serviços em um computador remoto via TCP/IP. Isto é uma
variação pública ou aberta do protocolo Server Message Block (SMB). O protocolo CIFS habilita clientes
remotos a obter acesso a arquivos que estão no server. CIFS habilita o compartilhamento de arquivos com
outros cliente utilizando um bloqueio especial. Os nomes de arquivo em CIF são codificados utilizando
caracteres unicode. CIF provê as seguintes funcionalidades para assegurar a integridade dos dados:

 Ele utiliza bloqueio de arquivo e registro para prevenir que usuários sobrescrevam o
trabalho de outro usuário em arquivo ou registro.

 Ele é executado em TCP.

 Ele suporta tolerância a falha e pode automaticamente restaurar conexões e reabrir


arquivos que estejam em interrupção. A funcionalidade de tolerância a falha do CIF
depende de onde a aplicação é escrita para obter vantagens desta funcionalidade. Alem
disso, CIF é um protocolo stateful porque o servidor CIF mantém informações de
conexões em relação a todo cliente conectado. No evento de falha de rede ou do servidor
CIF, o cliente recebe uma notificação de desconexão. O rompimento com o usuário é
minimizado se a aplicação tiver a inteligência par retomar a conexão. Entretanto se a
aplicação não possui esta inteligência o usuárioi tem que executar os passos para
restabelecer a conexão com o CIFS.

O usuário se refere ao sistema de arquivos remotos com um esquema de nomes muito fácil:
\\server\share ou \\servername.dominio.sufixo\share.

Figura 8 - Sistema comum de arquivo Internet.


Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.

Sistema de arquivo de rede.


Network File System (NFS) é um protocolo cliente/servidor para compartilhamento de arquivos que muito
utilizado em sistemas UNIX. O NFS foi originalmente baseado na falta de conexão do User Datagram
Protocol (UDP). Ele utiliza o Remote Procedure Call (RPC) como método de comunicação inter-processos
entre dois computadores. O protocolo NFS provê um conjunto de RPCs para acessar arquivos do sistema
remoto.
NFS cria conexões entre o cliente e o sistema remoto para transferir dados. NFS (NFSv3 e anteriores) é um
protocolo não natural, o que significa que ele não mantém nenhum tipo de tabela para armazenar
informações sobre arquivos abertos e seus ponteiros associados. Entretanto cada chamada provê um
conjunto completo de argumentos para acessar arquivos no servidor.Esses argumentos incluem o nome do
arquivo e a localização, a posição em particular para ler ou gravar e a versão do NFS.
Atualmente existem três versões do NFS em uso:
NFS version 2 (NFSv2): Utilisa o UDP para proporcionar uma conexão não natural entre o cliente e o
servidor. Funcionalidades do tipo bloqueio são executados fora do protocolo.
NFS version 3 (NFSv3): É a versão mais comumente usada, a qual utiliza UDP ou TCP e é baseada em
desenho de protocolo não natural. Isto inclui novas funções, do tipo tamanho do arquivo de 64-bits,
gravações assíncronas e atributos adicionais para reduzir o re-fetching.
NFS version 4 (NFSv4): Esta versão utiliza TCP e é baseada em desenho de protocolo não natural. Ele
oferece uma segurança aprimorada. A última versão do NFS é a 4.1 que é um aperfeiçoamento da NFSv4 e
inclui algumas novas funcionalidades, como modelo de sessão, NFS paralelo (pNFS) e retenção de dados.

Figura 9 - Sistema de arquivo de rede.


Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.

NAS I/O Operation.


O NAS oferece a seus clientes o acesso ao dado a nível de arquivo para seus clientes. O I/O ao arquivo é o
nível mais alto de solicitação que especifica o arquivo a ser acessado. Por exemplo, o cliente pode solicitar
o arquivo especificando seu nome, localização ou outro atributo. A operações do sistema NAS observam a
localização do arquivo no volume de disco, e converte o I/O do cliente em nível de bloco para obter o dado.
Os processo de manipulação de I/O no ambiente NAS são os seguintes:
1. Pacotes do requisitor (cliente) em uma solicitação de I/O dentro do TCP/IP e adianta isto através das
pilhas da rede. Os devices NAS recebem suas solicitações da rede.
2. O device NAS converte a solicitação de I/O em solicitação de armazenamento físico apropriado que é a
nível de bloco de I/O e então executa o armazenamento físico.
3. Quando a device NAS recebe o dado do storage, ele processa e reempacota o dado em um protocolo de
resposta apropriado.
4. O device NAS empacota sua resposta em TCP/IP novamente e envia isto ao cliente através da rede.

Figura 10 - NAS I/O Operation.


Fonte: Fonte: Module 7: Network-Attached Storage. Copyright © 2012 EMC Corporation.

Resumo.
Neste tópico você viu os benefícios e componentes da network-attached storage (NAS). Nele também foi
feito um comparativoentre o servidor de uso geral vs os dispositivos NAS. Foram abordados ainda os
protocolos de compartilhamento de arquivos NAS focando o protocolo NAS file-sharing, sistema comum de
arquivo Internet, sistema de arquivo de rede e por fim o NAS I/O Operation.

Direct Attached Storage (DAS)


Este tópico tem como objetivo descrever a forma de como guardar as informações em um data center.
NESTE TÓPICO
NESTE TÓPICO

Opções de armazenamento.
Opções de armazenamento (cont.).
Componentes do drive de disco.
Estrutura física do disco.
Endereçamento lógico de bloco.
Desempenho do drive de disco.
Tempo de busca.
Latência rotacional.
Taxa de transferência de dados.
Uso da controladora de I/O vs. tempo de resposta.
Design de armazenamento baseado na necessidade do aplicativo e no
desempenho do drive de disco.
Flash drives empresariais.
Acesso do host ao armazenamento.
Direct-Attached Storage (DAS).
Resumo.
Referências
Marcar
tópico
Este módulo tem foco no elemento mais importante do data center - o armazenamento.
Várias mídias e opções de armazenamento serão apresentadas com foco nos drives de disco. Discutiremos
detalhadamente os componentes, a estrutura, o endereçamento e os fatores que impactam o desempenho dos
drives de disco abrangendo as novas gerações de flash drives e seus benefícios. Finalmente vários métodos
de acesso ao armazenamento a partir do host serão apresentados destacando as opções de armazenamento
com conexão direta.
Opções de armazenamento.
O armazenamento é o componente mais importante do data center. Os dispositivos de armazenamento
utilizam mídias magnéticas, ópticas ou sólidas. Discos, fitas disquetes utilizam mídias magnéticas, enquanto
CDs e DVDs utilizam mídias opticas. Os cartões de memória Flash ou Flash drives removíveis são
exemplos de mídia de estado sólido. No passado as fitas eram opções de armazenamento para backups mais
populares pelo seu baixo custo, porém apresentavam limitações de desempenho e gerenciamento como:
•Os dados são armazenados linearmente pela extensão da fita. A pesquisa e a recuperação dos dados são
feitas de forma sequencial, levando-se invariavelmente vários segundos para acessar os dados. Como
consequência o acesso aleatório é lento consumindo muito tempo. Isto limita as fitas como opção viável
para aplicativos que requeiram acesso aos dados rápido e em tempo real.
•Em um ambiente computacional compartilhado, os dados armazenados na fita não podem ser acessados por
vários aplicativos simultaneamente, restringindo seu uso a um aplicativo por vez.
•Em um drive de fita, o cabeçote de leitura /gravação toca a superfície da fita, de modo que esta se desgasta
após uso repetido.
•Os requisitos de armazenamento e recuperação de dados da fita e a sobrecarga associada ao gerenciamento
de mídia de fita são significativos. Por estas limitações e disponibilidade e drives de discos à baixo custo, as
fitas não são mais a escolha preferida para os backups para os data centers corporativos.
Figura 1 - Opções de armazenamento.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Opções de armazenamento (cont.).


Armazenamento em disco óptico é popular nos ambientes computacionais pequenos e de um único usuário.
É geralmente utilizado por indivíduos para armazenar fotos ou para backup em computadores de uso
pessoal, além de servir como mídia para aplicativos pequenos como jogos, ou ainda como uma forma de
transferência de pequenas quantidades de dados de um computador para outro.
Os discos ópticos tem capacidade e velocidade limitadas o que restringe o uso das mídias ópticas como uma
solução de armazenamento de dados corporativos. Uma vantagem do armazenamento em discos ópticos é a
capacidade de gravar um única vez e ser lido muitas outras (WORM), como por exemplo o CD-ROM.
Discos ópticos garantem, até certo ponto, que o conteúdo não seja alterado sendo uma alternativa de baixo
custo para armazenamento a longo prazo de quantidades relativamente pequenas de conteúdo fixo que não
serão alterados após serem criados. Conjuntos de discos ópticos em um array, chamados jukebox, ainda são
utilizados como uma solução de armazenamento de conteúdo fixo. Outras formas de discos ópticos incluem
o CD-RW, o disco Blu-Ray e outras variações de DVD.
Os drives de discos são as mídias mais populares usadas em computadores modernos por aplicativos on-line
que requerem alto desempenho para armazenar e acessar dados. Os discos suportam acesso rápido para
localizar dados aleatórios. Isto significa que os dados podem ser gravados ou recuperados rapidamente por
um grande números de usuários ou aplicativos simultaneamente, além possuírem um grande capacidade. Os
arrays de discos de armazenamento são configurados com múltiplos discos para oferecer maior capacidade e
melhor desempenho.
Os Flash drives (ou Solid Stated drives –SSDS) usam mídias semicondutoras e proporcionam alto
desempenho e baixo consumo de energia. Os flash drives serão abordados em detalhes.

Figura 2 - Opções de armazenamento (cont.).


Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Componentes do drive de disco.


Os principais componentes de um drive de disco rígido são platter, eixo, cabeçote de leitura-gravação,
braço atuador de montagem placa controladora. As operações de I/O em um HDD são realizadas pelo
movimento rápido do braço pela superfície rotatória dos platters revestida com partículas magnéticas. A
transferência de dados entre a controladora do disco e os platters magnéticos é feita através do cabeçote de
eitura-
gravação que está preso ao braço. Os dados podem ser gravados e apagados dos platters magnétcos
várias vezes.
Platter: um HDD típico consiste de um ou mais discos planos chamados de platters. Os dados são gravados
neste platters em códigos binários (0s e 1s). O conjunto de platters rotatórios fica lacrado em uma caixa,
chamado Head Disk Assembly (HDA). Um platter é um disco rígido revestido com material magnético em
ambas as superfícies (de cima e de baixo). Os dados são codificados pela polarização da área magnética, ou
domínios, da superfície do disco e podem ser gravados ou lidos a partir de ambas superfícies do platter. O
número de platters e a capacidade de armazenamento de cada um determina a capacidade total do drive.
Eixo: conecta todos os platters e está conectado a um motor que gira à uma velocidade constante. O platter
do disco gira a uma velocidade de milhares de rotações por minuto (rpm) sendo as mais comuns de 5.400
rpm, 7.200 rpm, 10.000 rpm e 15.000 rpm. Com o avanço tecnológico a velocidade do platter está
aumentando, embora o quanto possa ser melhorada seja limitado.
Braço atuador de montagem: os cabeçotes de leitura-gravação estão montados no braço atuador de
montagem, que posiciona o cabeçote de leitura-gravação no platter onde os dados serão gravados ou lidos.
Os cabeçotes de leitura-gravação para todos os platters de um drive estão ligados ao braço atuador de
montagem e se movem pelos platters simultaneamente.
Figura 3 - Componentes do drive de disco.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Estrutura física do disco.


Os dados ficam gravados no disco em faixas, que são anéis concêntricos no platter em torno do eixo. As
faixas são numeradas a par2r do zero iniciando na aresta externa do platter. O número de faixas por
polegadas (TPI – tracks per inch) no platter (ou a densidade da faixa) mede o quão próximas as faixas estão
colocadas no platter.
Cada faixa é dividida em unidades menores chamadas setores. Um setor é a menor unidade de
armazenamento individualmente endereçável. A estrutura da faixa e do setor é gravada no platter pelo
fabricante do drive através da formatação de nível baixo. O número de setores por faixa varia de acordo
com o tipo de drive. Os primeiros discos de computadores pessoais tinham 17 setores por faixa. Os discos
recentes possuem um número maior de setores em uma única faixa, podendo existir milhares de faixas em
um platter, dependendo das dimensões físicas e da densidade da gravação do platter.
Normalmente, um setor guarda 512 bytes de dados do usuário, embora alguns discos possam ser formatados
com tamanhos maiores de setor. Além dos dados do usuário, um setor também pode armazenar outras
informações como número do setor, número do cabeçote ou do platter e número da faixa. Estas informações
ajudam a controladora localizar os dados na unidade.
Um cilindro é um conjunto de faixas idênticas em ambas superfícies de cada platter da unidade. A
localização dos cabeçotes da unidade é indicada pelo número do cilindro e não pelo número da faixa.
Figura 4 - Estrutura física do disco.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Endereçamento lógico de bloco.


Os drives mais antigos utilizavam endereços físicos formados pelo número de cilindro, cabeçote e setor
(CHS) para indicar locais específicos no disco e o sistema operacional do host tinha que conhecer a
geometria utilizada por cada disco. O endereçamento de blocos lógicos (LBA- Logical Block Addressing)
simplificou o endereçamento utilizando um endereço linear para acessar blocos físicos de dados. A
controladora do disco traduz endereços LBA ara CHS e o host só precisa saber o tamanho do drive de disco
em termos de número de blocos. Os blocos lógicos são mapeados para setores físicos em uma base 1:1.
Na figura abaixo o drive mostra oito etores por faixa, seis cabeçotes e quatro cilindros. Isto significa um
total e 8x6x4 = 192 blocos, de modo que o número de blocos varia de 0 a 191. Cada bloco possui seu
próprio endereço. Supondo que cada setor possui 512 bytes, um drive de 500 GB com uma capacidade
formatada de 465.7 GB possui mais de 976 milhões de blocos.
Figura 5 - Endereçamento lógico de bloco.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Desempenho do drive de disco.


Um drive de disco é um dispositivo eletromagnético que controla o desempenho geral do ambiente do
sistema de armazenamento. Os diversos fatores que afetam o desempenho dos drives de discos são:
• Tempo de busca.
• Latência Rotacional.
• Taxa de transferência de dados.
Figura 6 - Desempenho do drive de disco.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Tempo de busca.
O tempo de busca (também chamado de tempo de acesso) descreve o tempo necessário para posicionar os
cabeçotes de leitura-gravação no platter com um movimento radial (movendo-se pelo raio do platter). Em
outras palavras, é o tempo gasto para posicionar e pousar o braço e o cabeçote na faixa correta. Portanto,
quanto menor o tempo de busca, mais rápida será a operação de I/O. Os vendedores de discos publicam as
seguintes especificações de tempo de busca:
Full Stroke: tempo gasto pelo cabeçote de leitura-gravação para se mover através de toda a extensão do
disco, desde a faixa mais interna para a mais externa.
Média: tempo médio gasto pelo cabeçote de leitura-gravação para se mover de uma faixa aleatória a outra,
normalmente listado como um terço do full stroke.
Track-to-Track: o tempo gasto pelo cabeçote de leitura-gravação para se mover entre faixas adjacentes.
Cada uma destas especificações é medida em milissegundos. O tempo médio de busca de disco é
normalmente especificado pelo fabricante do drive. O tempo médio de busca de um disco moderno é
geralmente entre 3 a 15 milissegundos. O tempo de busca tem mais influência sobre a operação de I/O de
faixas aleatórias do que de adjacentes. Para minimizá-lo, os dados podem ser gravados em apenas um
subconjunto de cilindros disponíveis. Isso resulta em menor capacidade utilizável do que a real capacidade
do drive. Por exemplo, um drive de disco de 500 GB é configurado para usar apenas os primeiros 40% dos
cilindros e é efetivamente tratada como uma unidade de 200GB. Isto é conhecido como subutilizar a
capacidade do drive.
Figura 7 - Tempo de busca.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Latência rotacional.
Para acessar os dados, o braço move a cabeça de L/G acima do platter até uma faixa especifica enquanto o
platter roda para posicionar o setor requisitado sob a cabeça de L/G. O tempo gasto pelo platter para rodar e
posicionar os dados sob a cabeça de L/G é chamado de tempo rotacional de resposta. A resposta depende da
velocidade da rotação do eixo e é medida em milésimos de segundos. O tempo médio de resposta é a metade
do tempo gasto para se fazer a rotação completa. Similar ao tempo de busca, o tempo rotacional de resposta
tem mais impacto na leitura/gravação de setores aleatórios do disco do que a mesma operação em setores
adjacentes.
O tempo rotacional médio é de aproximadamente 5.5 milésimos de segundo em um drive de 5,400 rpm e por
volta de 2.0 milésimos de segundos para um drive de 15.000 rpm (ou 250 rps voltas por segundo) como é
mostrado aqui.
Tempo rotacional médio para um drive de 15k ou 250 rps (15000/60) é = 2 milésimos de segundos.
Figura 8 - Latência rotacional.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Taxa de transferência de dados.


A taxa de transferência de dados (também chamada de taxa de transferência) se refere ao volume médio de
dados por unidade de tempo que o drive pode transferir para o HBA. Em uma operação de leitura, os dados
passam dos platters do disco para os cabeçotes de leitura-gravação e depois para o buffer interno do drive.
Finalmente passam do buffer através da interface para o HBA host. Em uma operação de gravação, os dados
vão do HBA para o buffer interno do drive de disco através da interface do drive. Os dados, então passam
do buffer para os cabeçotes de leitura-gravação e finalmente vão para os platters. As taxas de transferência
de dados durante a operação de leitura-gravação são medidas em termos de taxas de transferência interna e
externa, como mostrado no slide.
A taxa de transferência interna é a velocidade pela qual os dados passam da superfície de um platter para o
buffer (cache) interno do disco. A taxa de transferência interna leva em consideração fatores como o tempo
de busca e a latência rotacional.
A taxa de transferência externa é a taxa na qual os dados se movem através da interface para o HBA. A taxa
de transferência externa é geralmente a velocidade anunciada da interface , como por exemplo 133 MB por
segundo para ATA. A taxa de transferência externa continua é mais baixa do que a velocidade da interface.
Figura 9 - Taxa de transferência de dados.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Uso da controladora de I/O vs. tempo de resposta.


O uso da controladora I/O do disco causa impacto significante no tempo de resposta do I/O. Considere que
o disco é visto como uma caixa preta que possui dois elementos: fila e controladora de I/O do disco. Fila é o
local onde a solicitação de I/O espera antes de ser processada pela controladora I/O, que processa uma à
uma das I/Os que estão esperando na fila. As solicitações de I/O chegam à controladora na taxa gerada pelo
aplicativo. A taxa de chegada do I/O, o comprimento da fila e o tempo gasto pela controladora de I/O para
processar cada solicitação determina o tempo de resposta do I/O. Se a controladora está ocupada ou sendo
muito utilizada, o tamanho da fila ficará maior e o tempo de resposta será maior.
Baseado nas leis fundamentais de desempenho do drive de disco, a relação entre o uso da controladora e a
média de tempo de resposta é o seguinte:
Tempo médio de resposta = tempo de serviço / (1 - uso), onde o tempo de serviço é o tempo gasto pela
controladora para servir um I/O. Quando o uso atinge 100%, isto é quando a controladora de I/O fica
saturada, o tempo de resposta chega próximo ao infinito.
Em suma, um componente saturado, ou gargalo, obriga a serialização das solicitações de I/O, o que
significa que uma solicitação de I/O tem que esperar pelo término da que a precede. A figura no slide
mostra o gráfico traçado entre o tempo de uso e de resposta. O gráfico indica que as mudanças do tempo de
resposta são não lineares conforme o uso aumenta. Quando os tamanhos médios das filas são pequenos, o
tempo de resposta permanece baixo. O tempo de resposta aumenta vagarosamente quando a carga é
adicionada à fila.

Figura 10 - Uso da controladora de I/O vs. tempo de resposta.


Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Design de armazenamento baseado na necessidade do


aplicativo e no desempenho do drive de disco.
Para se determinar os requisitos de armazenamento para um aplicativo é necessário primeiramente,
determinar a capacidade de armazenamento necessária e o desempenho do I/O. A capacidade pode ser
facilmente estimada através do tamanho e número de file systems e de componentes da base de dados
usados pelos aplicativos. O tamanho do I/O, suas características e o número de I/Os gerados pelo aplicativo
no pico de carga de trabalho são outros fatores que afetam o desempenho, o tempo de resposta do I/O e o
design do sistema de armazenamento.
O tempo de serviço do disco (TS) para um I/O é a principal medida de desempenho do disco. A soma do TS
e da taxa de uso do disco (U) determina o tempo de resposta do I/O para um aplicativo. Como já discutido
anteriormente, o tempo total de serviço do disco é a soma do tempo de busca, da latência rotacional e do
tempo de transferência.
Repare que o tempo de transferência é calculado com base no tamanho do bloco de I/O e na taxa de
transferência de dados do drive de disco. Por exemplo um I/O com um bloco de tamanho de 32 KB com
uma taxa de transferência de dados do disco de 400MB/s terá o tempo de transferência de 32 KB/ 40MB.
O TS determina o tempo gasto pela controladora de I/O para servir I/O portanto, o número máximo de I/Os
atendidos por segundo ou IOPS é (1/TS).
O IOPS calculado acima representa o IOPS que pode ser alcançado nos níveis potencialmente mais altos do
uso da controladora de I/O (próximo a 100). Se o aplicativo exigir uma resposta de tempo mais rápida,
então o uso dos discos deve ser mantido abaixo do 70%. Baseado nesta discussão, o número total de discos
exigidos por um aplicativo é computado da seguinte maneira:

Figura 11 - Design de armazenamento baseado na necessidade do aplicativo e no desempenho do drive de disco.


Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Flash drives empresariais.


Tradicionalmente, os requisitos de I/O intensos de um aplicativo são atendidos simplesmente utilizando
mais discos. A disponibilidade de flash drives para classe empresarial (EFD) mudou este cenário. Os flash
drives, também conhecidos como solid state drives (SSDs) são a nova geração de drives que apresentam um
desempenho ultra alto exigido por aplicativos sensíveis ao desempenho. Os flash drives utilizam memória
solid state com base em semicondutor (flash memory) para armazenar e recuperar dados. Diferentemente
dos drives de discos mecânicos convencionais, os flash drives não possuem peças móveis, não possuindo
portanto, tempo de busca e tempo rotacional. Os flash drives apresentam IOPS altos com baixo tempo de
resposta. Além disso, sendo um dispositivo com base em semicondutor, os flash drives consomem menos
energia se comparados aos drives mecânicos. Os flash drives são especialmente adequados para aplicativos
com tamanho de blocos pequenos e cargas de trabalho de leitura aleatória que necessitam tempo de
resposta consistentemente baixo (menos de 1 ms).
Os aplicativos que precisam processar rapidamente um grande volume de informações, como por exemplo
cambio, sistema eletrônicos de negociação e processamento de abastecimento de dados em tempo real, se
beneficiam dos flash drives. Em geral, flash drives oferecem um melhor custo total de propriedade (TCO)
mesmo custando mais em relação a $/GB. Ao implementar os flash drives, as empresas podem atender aos
requisitos de desempenho com muito menos drives (aproximadamente 20 a 30 vezes menos drives
comparado aos drives mecânicos convencionais). Esta redução não somente proporciona economia em
termos de custo do drive, mas também significa economia de energia, refrigeração e uso do espaço. Um
número menor de drives no ambiente também significa custo menor para gerenciar o armazenamento.
Figura 12 - Flash drives empresariais.

Hard Drive convencionais Flash Drives

Maior rendimento possível por


Demora mecânica devido ao tempo
drive devido à falta de
de busca e da latência rotacional
movimento mecânico

Desempenho e capacidade de serviço Latência bem baixa por I/O e


do I/O limitados desempenho consistente de I/O

Alta eficiência de energia:

Maior consumo de energia por causa • Menor exigência de energia


das operações mecânicas por GB;
• Menor exigência de energia
por IOPS;

Tempo médio baixo entre as falhas Alta confiabilidade devido a falta


(MTBF) de peças móveis
TCO mais alto devido ao maior
número de discos, energia,
No geral, menos TCO
refrigeração e custos de
gerenciamento

Acesso do host ao armazenamento.


Dados são acessados e armazenados por aplicativos utilizando uma infraestrutura adjacente. Os principais
componentes desta infraestrutura são o file system, conectividade e armazenamento. Os dispositivos de
armazenamento podem ser internos ou externos ao host. Em ambos os casos, a controladora do cartão o
host cessa o dispositivo de armazenamento utilizando protocolos predefinidos como IDE/ATA, SCSI, ou
Fibre Channel FC). IDE/ATA e SCSI são popularmente utilizados para acessar o armazenamento interno
em ambientes computacionais pessoais e pequenos. Os protocolos FC e iSCSI são usados para cessar dados
a partir de um dispositivo de armazenamento externo (ou subsistemas). Os dispositivos de armazenamento
externos podem ser conectados ao host diretamente ou através de uma rede de armazenamento. Quando
armazenamento é conectado diretamente ao host, é chamado de Direct-Avached Storage (DAS).
Os dados podem ser acessados através de uma rede das seguintes maneiras: em nível de block, em nível de
file ou em nível de objeto. Em geral, o aplicativo solicita dados do file system (ou sistema operacional)
especificando o nome do arquivo e a localização. O file system mapeia as características do arquivo para o
endereço do bloco lógico dos dados e envia a solicitação para o dispositivo de armazenamento. O
dispositivo de armazenamento converte o endereço do bloco lógico (LBA) para endereço do setor de
cabeçote cilíndrico e busca dos dados.
Em um acesso em nível de block, o file system é criado no host e os dados são acessados na rede em nível
de block. Neste caso, os discos brutos ou os volumes lógicos são atribuídos ao host para criar um file
system.
No acesso em nível de file, o file system é criado em um servidor de arquivo separado ou ao lado do
armazenamento e a solicitação em nível de file é enviada pela rede.
Figura 13 - Acesso do host ao armazenamento.
Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Direct-Attached Storage (DAS).


DAS é uma arquitetura na qual o armazenamento está conectado diretamente aos hosts. O drive interno do
disco do host e o array de armazenamento externo conectado diretamente são exemplos de DAS. embora a
implementação das tecnologias de trabalho em rede esteja ganhando popularidade, o DAS mantêm-se
adequado para acessar os dados localizados em ambientes pequenos, como computadores pessoais e de
trabalhos em grupos. O DAS é classificado como interno ou externo com base na localização do dispositivo
de armazenamento em relação ao host.
Na arquitetura de DAS interno, o dispositivo de armazenamento está conectado internamente ao host por um
barramento serial ou paralelo. O barramento físico tem limitações de distância e podem ser mantidos
somente a curta distância para conectividade de alta velocidade. além disso, a maioria dos barramentos
internos podem manter um número limitado de dispositivos, e eles ocupam um grande espaço interno do
host, tornando difícil a manutenção os outros componentes.
Em arquiteturas de DAS externo, o host conecta diretamente ao dispositivo de armazenamento externo, e os
dados são acessados em nível de block. Na maioria dos casos, a comunicação entre o host e o dispositivo de
armazenamento acontece nos protocolo SCSI ou FC. Comparado com o DAS interno, o DAS externo supera
as limitações de distância e proporciona um gerenciamento centralizado dos dispositivos de armazenamento.
Os benefícios e as limitações do DAS: DAS precisa de um investimento inicial relativamente mais baixo do
que as arquiteturas de armazenamento em rede e trabalho. A configuração do DAS é simples e pode ser
implementada fácil e rapidamente. Ele precisa de menos tarefas de gerenciamento e menos elementos de
hardware e software para ser configurado e operado.

Figura 14 - Direct-Attached Storage (DAS).


Fonte: Fonte: Module 2: Ambiente do data center. Copyright © 2012 EMC Corporation.

Resumo.
Neste tópico você estudou o elemento mais importante do data center - o armazenamento. Foram avaliadas
várias mídias e opções de armazenamento, que foram apresentadas com foco nos drives de disco. Foi
também discutido detalhadamente os componentes, a estrutura, o endereçamento e os fatores que impactam
o desempenho dos drives de disco abrangendo as novas gerações de flash drives e seus benefícios. Por
último, você viu vários métodos de acesso ao armazenamento a partir do host que foram apresentados
destacando as opções de armazenamento com conexão direta.

Segurança de dados na nuvem


O objetivo deste tópico é mostrar as características essenciais da computação em nuvem, os serviços em
nuvem e os modelos de implementação.
NESTE TÓPICO

NESTE TÓPICO

Drivers para computação em nuvem.


O que é computação em nuvem?
Auto serviço sob demanda.
Amplo acesso à rede.
Pool de recursos.
Elasticidade rápida.
Serviço mensurável.

Tecnologias que viabilizam a nuvem.


Modelos de serviços em nuvem.
Infraestrutura com serviço.
Plataforma como serviço.
Software como serviço.
Modelos de implementação em nuvem.
Nuvem pública.
Nuvem privada.
Nuvem comunitária.
Nuvem hibrida.
Resumo.
Referências
Marcar
tópico

Este módulo enfoca as características essenciais da computação em nuvem, os serviços em nuvem, os


modelos de implementação e a infraestrutura de computação em nuvem. Também trata sobre os desafios da
computação em nuvem e as considerações da adoção da nuvem.

Figura 1 - Computação em nuvem


Fonte: Computação em nuvem. Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation

Drivers para computação em nuvem.


No atual ambiente competitivo, as empresas estão sob uma crescente pressão para melhorar a eficiência e
transformar seus processos de TI a fim de obterem mais com menos. As empresas precisam de menor tempo
de comercialização, de maior agilidade, de maior disponibilidade e de gasto reduzidos para atenderem as
exigências das mudanças dos negócios e acelerarem o ritmo da inovação. Estas exigências dos negócios
trazem novos desafios para as equipes de TI. Alguns dos principais desafios é atender os clientes, a
qualquer momento, ao redor do mundo, atualizando tecnologia de modo ágil e oferecendo os recursos de TI
rapidamente, tudo com custos reduzidos.
Estes desafios de longa data estão sendo enfrentados com o surgimento de um novo estilo de computação
chamado computação em nuvem, que permite que as empresas e as pessoas físicas obtenham e forneçam os
recursos de TI como um serviço.
Figura2 - Drivers para computação em nuvem.
Fonte: Drivers para computação em nuvem. Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC
Corporation.

O que é computação em nuvem?


Com a computação em nuvem os usuários podem navegar e selecionar serviços relevantes em nuvem, como
capacidade computacional, software, armazenamento de informações ou a combinação destes recursos,
através de um portal. A computação em nuvem automatiza a distribuição aos usuários e serviços em nuvem
selecionados. Ela auxilia as empresas e as pessoas físicas a implementarem os recursos de TI, a um custo
total de propriedade reduzido com rápido provisionamento e adesão às conformidades. Uma definição
amplamente adotada de computação em nuvem vem do instituto Nacional de Padrões e Tecnologia dos
Estados Unidos (publicação especial o instituto Nacional de Padrões e Tecnologia 800-145), como mostrado
no slide.
Uma infraestrutura computacional utilizada para serviços em nuvem deve atender certos recursos ou
características. De acordo com o Instituto nacional de Padrões e Tecnologia, a infraestrutura em nuvem
deve ter as cinco principais características:
• Auto serviço sob demanda.
• Amplo acesso à rede.
• Pool de recursos Rápida elasticidade.
• Serviço mensurável.

Figura 3 - O que é computação em nuvem?


Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation

Auto serviço sob demanda.


Os recursos estão disponíveis na rede e são acessados através de mecanismos padrões que promovem a
utilização por plataformas thin ou thick client, por exemplo telefones celulares, tablets, laptop e estações de
trabalho.
Figura 4 - Auto serviço sob demanda.
Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation

Amplo acesso à rede.


Um cliente pode fornecer, unilateralmente, os recursos computacionais, como tempo de servidor e
armazenamento de rede, quando necessários, automaticamente, sem a necessidade da interação humana com
cada provedor de serviços.
Um provedor de serviços em nuvem publica um catálogo de serviços que contém informações sobre todos
os serviços em nuvem disponíveis aos clientes. O catálogo de serviços inclui informações sobre os atributos
dos serviços, preços e processos de solicitações. Os clientes olham o catálogo de serviços através de uma
interface de usuário com base na web e o utiliza para solicitar um serviço. Os cliente podem tanto aproveitar
os serviços prontos para o uso ou alterar alguns parâmetros de serviços para personalizar os serviços.
Figura 5 - Recursos disponíveis na rede
Fonte: Amplo acesso à rede. Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Pool de recursos.
Os recursos computacionais do provedor são agrupados para servir múltiplos clientes que utilizam um
modelo multilocatário, com diferentes recursos físicos e virtuais atribuídos ou redistribuídos
dinamicamente, de acordo com a demanda do cliente. Há uma sensação de independência e localização, na
qual o cliente, geralmente, não tem controle ou conhecimento exato da localização dos recursos oferecidos,
mas podem ser capazes de especificar a localização em um nível mais alto de abstração, como por exemplo,
país, estado ou data center.
Os exemplos de recursos incluem armazenamento, processamento, memória e largura de banda da rede.
Nota:
Multitenancy se refere à arquitetura a qual múltiplos clientes independentes (locatários) são servidos
utilizando um conjunto de recursos. Isto diminui s custos dos serviços dos clientes. A virtualização
possibilita um pool de recursos e multitenancy em nuvem. Por exemplo, múltiplas máquinas virtuais de
diferentes clientes podem funcionar simultaneamente em um mesmo servidor físico que executa o
hipervisor.
Figura 6 - Pool de recursos.
Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Elasticidade rápida.
Os recursos podem ser fornecidos ou liberados elasticamente, em alguns casos automaticamente, para
escalar rapidamente, interna ou externamente, proporcionalmente à demanda. Ao cliente, os recursos
disponíveis para provisionamento, geralmente parecem ser ilimitados e podem ser apropriados em qualquer
quantidade a qualquer momento.
Os clientes podem aproveitar da rápida elasticidade da nuvem, quando eles verem uma variação em seus
requisitos de recursos e TI. Por exemplo, uma empresa pode necessitar o dobro do número de web e de
servidores de aplicativos por um período especifico para completar uma tarefa específica. Para o período
remanescente, eles podem querer liberar os recursos ociosos do servidor para cortar despesas. A nuvem
permite que clientes aumentem ou diminuam a demanda por recursos dinamicamente.
Figura 7 - Elasticidade rápida.
Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Serviço mensurável.
Os sistemas em nuvem controlam e otimizam a utilização dos recursos automaticamente pelo
aproveitamento da capacidade de medição, em algum nível de abstração adequado ao tipo de serviço, como
por exemplo armazenamento, processamento, largura de banda e contas de usuários ativas. A utilização de
recursos pode ser monitorada, controlada e reportada, oferecendo transparência tanto para o provedor como
para o cliente do serviço utilizado.

Figura 8 - Serviço mensurável.


Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.
A computação em nuvem oferece os principais benefícios a seguir:
• Custo de TI reduzido: os serviços em nuvem podem ser adquiridos com base nos preços medidos pela
utilização ou através de uma assinatura. Isto reduz ou elimina despesa com investimento de TI pelo cliente
(CAPEX).
• Agilidade nos negócios: a computação em nuvem permite alocar e dimensionar a capacidade
computacional rapidamente. A nuvem pode reduzir o tempo de meses para minutos, necessário para prover
e implantar novos aplicativos e serviços. Isto permite que as empresas respondam rapidamente às alterações
do mercado e reduzirem o tempo de comercialização.
• Dimensionamento flexível: a computação em nuvem permite que os clientes ampliem, reduzam ou
dimensionem horizontalmente ou verticalmente a demanda por recursos computacionais, facilmente. Os
clientes podem, unilateralmente e automaticamente, dimensionar os recursos computacionais sem qualquer
interação com os provedores de serviços em nuvem. O serviço flexível da capacidade de provisionamento
da nuvem sempre oferece um senso de dimensionamento ilimitado aos clientes de serviços em nuvem.
• Alta disponibilidade: a computação em nuvem tem capacidade de assegurar a disponibilidade de recursos
em vários níveis, dependendo da política e prioridade do cliente. Os componentes redundantes de
infraestrutura (servidores, caminhos de rede e equipamentos e armazenamento com software em cluster)
ativam a tolerância a falhas para a implantação da nuvem. Estas técnicas podem abranger múltiplos
datacenters localizados em regiões geográficas diferentes, evitando a indisponibilidade de dados.

Benefícios da computação em nuvem. Fonte: Module 13: Computação


em nuvem. Copyright © 2012 EMC Corporation

Benefícios Descrição

Custos de TI
Reduz despesa de capital inicial (CAPEX)
reduzidos

Permite implementar rapidamente novos


Agilidade nos recursos;
negócios Permite que empresas reduzam o tempo de
comercialização.

Permite que os clientes ampliem, reduzam,


dimensionem (horizontal ou verticalmente) a
demanda por recursos computacionais
Dimensionamento
facilmente;
flexível Os clientes podem unilateralmente e
automaticamente dimensionar os recursos
computacionais.

Alta disponibilidade Assegura a disponibilidade de recursos em


vários níveis dependendo da política e
Benefícios da computação em nuvem. Fonte: Module 13: Computação
em nuvem. Copyright © 2012 EMC Corporation

Benefícios Descrição

prioridade do cliente.

Tecnologias que viabilizam a nuvem.


Computação em grid, utility computing, virtualização e arquitetura orientada a serviços tornam as
tecnologias de computação em nuvem possíveis.
Computação em grid é uma forma de computação distribuída que possibilita que os recursos de múltiplos
computadores heterogêneos, em uma rede, trabalhem juntos em uma mesma tarefa, ao mesmo tempo.
Computação em grid possibilita a computação paralela e é melhor para grandes cargas de trabalho.
Utility computing é um modelo de provisionamento de serviços no qual um provedor de serviço torna os
recursos de computação disponíveis aos clientes, como exigido, e cobra com base no uso. Isto é semelhante
aos outros serviços utilitários, como eletricidade, onde as cobranças são com base no consumo.
Virtualização é uma técnica que abstrai as características físicas dos recursos de TI dos usuários de
recursos. Ela possibilita que os recursos sejam vistos e gerenciados como um pool e permite que os usuários
criem recursos virtuais a partir do pool. A virtualização oferece uma flexibilidade melhor para o
provisionamento dos recursos de TI comparado ao provisionamento em um ambiente não virtualizado. Ela
auxilia otimizando a utilização dos recursos e entregando os recursos de modo mais eficaz.
A arquitetura orientada a serviços (SOA - service-oriented architecture) oferece um conjunto de serviços
que podem se comunicar entre si. Estes serviços trabalham juntos para executar alguma atividade ou
simplesmente, passar dados entre os serviços.

Tecnologias que viabilizam a nuvem. Fonte: Module 13: Computação


em nuvem. Copyright © 2012 EMC Corporation

Tecnologias Descrição

 Forma de computação distribuída;


Computação  Possibilita que os recursos de múltiplos
em grid computadores, em uma rede, trabalhem juntos
em uma mesma tarefa, ao mesmo tempo.

 Modelo de provisionamento de serviço que


Utility
oferece recursos computacionais como um
computing
serviço medido.
Tecnologias que viabilizam a nuvem. Fonte: Module 13: Computação
em nuvem. Copyright © 2012 EMC Corporation

Tecnologias Descrição

 Abstrai as características físicas dos recursos de


TI dos usuários de recursos;
Virtualização
 Possibilita um pool de recursos e cria recursos
virtuais a partir do pool.

Arquitetura
 Oferece um conjunto de serviços que podem se
orientada ao
comunicar entre si.
serviço (SOA)

Modelos de serviços em nuvem.


De acordo com o NIST (Nationalv Institute of Science and Technology – Instituto Nacional de Ciência e
Tecnologia), as ofertas do serviço em nuvem são classificadas principalmente em três modelos:
infraestrutura como serviço (IaaS), plataforma como serviço (PaaS) e software como serviço (SaaS).

Figura 11 - Modelos de serviços em nuvem.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation

Infraestrutura com serviço.


A capacidade fornecida ao cliente é oferecer processo de provisionamento, armazenamento, redes e outros
recursos computacionais fundamentais, onde o cliente é capaz de implementar e executar um software
arbitrário, o qual pode incluir sistemas operacionais e aplicativos. O cliente não gerencia ou controla a
infraestrutura subjacente em nuvem, mas tem o controle sobre os sistemas operacionais e os aplicativos
implementados e, possivelmente, controle limitado dos componentes de rede selecionados, como por
exemplo, o firewall do host.
IaaS é uma camada base de pilha de serviços em nuvem. Ela serve como fundação para SaaS e PaaS.
Amazon Elas2c Compute Cloud (Amazon EC2) é um exemplo de IaaS e oferece capacidade computacional
dimensionável, sob demanda, na nuvem. Ele possibilita que os clientes aproveitem da infraestrutura
computacional massiva do Amazon, sem investimento prévio de capital.

Figura 12 - Infraestrutura com serviço.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Plataforma como serviço.


A capacidade oferecida ao cliente é implementar em uma infraestrutura em nuvem criada pelo cliente ou
aplicativos adquiridos criados utilizando linguagem de programação, bibliotecas, serviços e ferramentas
suportadas pelo provedor. O cliente não gerencia ou controla a infraestrutura subjacente em nuvem
incluindo a rede, os servidores, os sistemas operacionais ou armazenamento, mas tem o controle sobre os
aplicativos implementados e, possivelmente, sobe as opções de configuração para o ambiente de
hospedagem de aplicativos.
PaaS é também utilizado como um ambiente de desenvolvimento de aplicativos, oferecido como um serviço
pelo provedor de serviço em nuvem. O cliente pode utilizar estas plataformas para codificar seus aplicativos
e, depois, implementar os aplicativos em nuvem. Devido à variação da carga de trabalho para os aplicativos
implementados, a escalabilidade nos recursos computacionais é, geralmente garantida pela plataforma
computacional, de forma transparente. Google App Engine e Microsoft Windows Azure Plataform são
exemplos de PaaS.

Figura 13 - Plataforma como serviço.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Software como serviço.


A capacidade oferecida ao cliente é para utilizar os aplicativos do servidor executados na infraestrutura em
nuvem. Os aplicativos estão acessíveis a partir de vários dispositivos de clientes através de uma interface
thin client, como o navegador da web (como por exemplo, e-mail com base na web) ou através de uma
interface de programa. O cliente não gerencia ou controla a infraestrutura subjacente em nuvem incluindo,
rede, servidores, sistemas operacionais ou mesmo as capacidades de aplicativos individuais, com a possível
exceção das definições de configurações do aplicativo de usuário especifico.
No modelo SaaS, os aplicativos, como gerenciamento de relacionamento do cliente (CRM – Customer
Relationship Management), email, mensagens instantâneas, são oferecidos como um serviço pelos
provedores de serviços em nuvem. Os provedores de serviços em nuvem gerenciam exclusivamente a
infraestrutura computacional necessária e o software para suportar estes serviços. Os clientes podem ter
permissão para alterar algumas definições de configurações de aplicativos para personaliza-los.
EMC Mozy é um exemplo do software como um serviço. Os clientes podem aproveitar o console para
executarem backup on-line automático e seguro e recuperar seus dados com facilidade. Salesforce.com é um
provedor de aplicativos CRM com base em SaaS , como vendas e serviço em nuvem.

Figura 14 - Software como serviço.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Modelos de implementação em nuvem.


De acordo com o NIST (National Institute of Science and Technology – Instituto Nacional de Ciência e
Tecnologia), a computação em nuvem é classificada em quatro modelos de implementação: pública,
privada, comunitário e híbrido, que oferece a base para como as infraestruturas em nuvem são construídas e
consumidas.

Figura 15 - Modelos de implementação em nuvem.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.
Nuvem pública.
No modelo nuvem pública, a infraestrutura em nuvem é provisionada para utilização aberta pelo público em
geral. Pode ser de propriedade, gerenciada e operada por uma organização empresarial, acadêmica ou
governamental, ou uma combinação destes. Ela existe no local do provedor de nuvem.
Os clientes utilizam os serviços em nuvem oferecidos pelos provedores através da internet e pagam taxas de
uso medido ou taxas de assinatura. Entretanto, para os clientes, estes benefícios vem com certos riscos:
nenhum controle sobre os recursos na nuvem, sobre a segurança de dados confidenciais, sobre o
desempenho da rede e sobre problemas de interoperabilidade. Os provedores populares de serviço em
nuvem pública são Amazon, Google e Salesforce.com. A figura do slide mostra uma nuvem publica que
oferece serviços em nuvem à organizações e pessoa física.

Figura 16 - Nuvem pública.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Nuvem privada.
No modelo nuvem privada, a infraestrutura em nuvem é provisionada para uso exclusivo de uma única
organização que compreende vários clientes (exemplo: unidades de negócio). Pode ser de propriedade,
gerenciada e operada por uma organização empresarial, por terceiros, ou uma combinação destes e pode
existir ou não no local. A seguir, duas variações do modelo de nuvem privada:
Nuvem privada no local: a nuvem privada no local, também conhecida como nuvem interna, é hospedada
pela organização dentro de seus próprios data centers. Este modelo possibilita as organizações a
padronizarem seus processos de gerenciamento do serviço em nuvem e segurança, embora este modelo
tenha limitações em termos de tamanho e escalabilidade dos recursos. As organizações também precisam
incorrer os custos de investimentos e operacionais para os recursos físicos. Este modelo é melhor para as
organizações que precisam do controle completo sobre seus aplicativos, configurações de infraestrutura e
mecanismos de segurança.
Nuvem privada hospeda a externamente: este tipo de nuvem privada é hospedada fora da organização e é
gerenciada por uma organização terceirizada. A organização terceirizada facilita um ambiente exclusivo em
nuvem para uma específica organização com total garantia de privacidade e confidencialidade.

Figura 17 - Nuvem privada.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Nuvem comunitária.
No modelo de nuvem comunitária, a infraestrutura em nuvem é provisionada para o uso exclusivo por uma
comunidade de clientes de organizações que compartilham um mesmo interesse, como por exemplo uma
missão, requisitos de segurança, política e considerações de conformidades. Pode ser de propriedade,
gerenciado e operado por uma ou mais organizações em uma comunidade, um terceirizado ou uma
combinação destes, e pode existir ou não no local.
Na nuvem comunitária, os custos são distribuídos para um número menor de clientes do que na nuvem
pública.
Portanto, esta opção é mais cara, mas pode oferecer níveis mais altos de privacidade, de segurança e de
conformidade. A nuvem comunitária também oferece às organizações, acesso a um vasto pool de recursos
comparado à nuvem privada. Um exemplo no qual a nuvem comunitária pode ser útil são as instituições
governamentais. Caso várias instituições dentro de um governo operem sob regras similares, todas elas
podem compartilhar a mesma infraestrutura e diminuir os investimentos individuais das instituições.

Figura 18 - Nuvem comunitária.


Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Nuvem hibrida.
No modelo de nuvem híbrida, a infraestrutura em nuvem é uma composição de duas ou mais infraestruturas
em nuvem distintas (privada, comunitária ou pública) que permanecem entidades únicas, mas são unidas
pela tecnologia padronizada ou proprietária, que permite a portabilidade de dados e aplicativos (p.ex.
nuvem de ruptura para equilíbrio de carga entre nuvens).
O modelo híbrido permite uma empresa implementar aplicativos e dados menos críticos na nuvem pública,
aproveitando da escalabilidade e o custo-eficácia da nuvem pública. Os aplicativos e os dados de missão
critica da organização permanecem na nuvem privada, que oferece maior segurança. A figura no slide
abaixo mostra um exemplo de uma nuvem híbrida.
Figura 19 - Nuvem hibrida.
Fonte: Fonte: Module 13: Computação em nuvem. Copyright © 2012 EMC Corporation.

Resumo.
Este módulo teve enfoque nas características essenciais da computação em nuvem, os serviços em nuvem,
os modelos de implementação e a infraestrutura de computação em nuvem. Também tratou dos desafios da
computação em nuvem e as considerações da adoção da nuvem.

Backup e restauração de banco de dados


O objetivo deste tópico é discorrer sobre os conceitos e recomendações sobre o processo de backup e restore
para banco de dados.

NESTE TÓPICO
NESTE TÓPICO

Componentes e conceitos.
Benefícios.
Introdução às estratégias de backup e restauração.
Planejar a estratégia de backup.
Estimar o tamanho de um backup de banco de dados completo.
Agendar backups.
Testar seus backups.
Apêndice.
Resumo.
Referências
Marcar
tópico

Este tópico mostra os benefícios do backup dos bancos de dados, as condições de backup e restauração
básicas, apresenta estratégias de backup e restauração para banco de dados, mostra também considerações
de segurança sobre backup e restauração banco.
O componente de backup e restauração do banco oferece uma proteção essencial para dados críticos
armazenados em bancos de dados. Para minimizar o risco de perda de dados catastrófica, você precisa fazer
backup dos bancos de dados para preservar as modificações feitas nos dados regularmente. Uma estratégia
de backup e restauração bem planejada ajuda a proteger bancos de dados contra perda de dados causada por
várias falhas. Teste sua estratégia restaurando um conjunto de backups e recuperando depois seu banco de
dados para se preparar para responder com eficiência a um desastre.
Como exemplo, podemos considerar o ambiente Microsoft, onde além do armazenamento local para guardar
os backups, por exemplo, o SQL Server também oferece suporte ao backup e à restauração no serviço de
armazenamento de Blob do Windows Azure.

Para obter mais informações, consulte "Backup e restauração do SQL Server com o serviço de
armazenamento de Blob do Windows Azure", que pode ser encontrado em "https://msdn.microsoft.com/pt-
br/library/jj919148(v=sql.120).aspx".
Figura 1 - Fazer backup.

Componentes e conceitos.
Antes de continuarmos a apresentar este tópico, vamos considerar alguns componentes e conceitos:
fazer backup [verbo]
Copia os dados ou registros de log de um banco de dados ou de seu log de transações para um dispositivo de
backup, como um disco, a fim de criar um backup de dados ou backup de log.
backup [substantivo]
Uma cópia dos dados que podem ser usados para restaurar e recuperar os dados após uma falha.Os backups
de um banco de dados também podem ser usados para restaurar uma cópia do banco de dados em um novo
local.
dispositivo de backup
Um disco ou dispositivo de fita no qual os backups serão gravados e nos quais eles poderão ser
restaurados.Os backups também podem ser gravados em um serviço de armazenamento do Blob do
Windows Azure. O formato de URL é usado para especificar o destino e o nome do arquivo de backup.
mídia de backup
Uma ou mais fitas ou arquivos de disco nos quais um ou mais backups foram gravados.
backup de dados
Um backup de dados em um banco de dados completo (um backup de banco de dados), um banco de dados
parcial (um backup parcial) ou um conjunto de arquivos de dados ou grupos de arquivos (um backup de
arquivo).
backup de banco de dados
Um backup de um banco de dados.Os backups completos de banco de dados representam todo o banco de
dados no momento em que o backup é concluído.Os backups de banco de dados diferenciais contêm
somente alterações feitas no banco de dados desde seu backup completo de banco de dados mais recente.
backup diferencial
Um backup de dados que se baseia no backup completo mais recente de um banco de dados completo ou
parcial ou um conjunto de arquivos de dados ou grupos de arquivos (a base diferencial) que contém somente
os dados alterados desde essa base.
backup completo
Um backup de dados que contém todos os dados em um banco de dados ou em um conjunto de grupos de
arquivos ou arquivos, além de log suficiente para permitir a recuperação desses dados.
backup de log
Um backup de logs de transações que inclui todos os registros de log dos quais não foi feito backup em um
backup de log anterior.(modelo de recuperação completa)
recuperação
Para retornar um banco de dados a um estado estável e consistente.
recuperação
Uma fase de inicialização de banco de dados ou de restauração com recuperação que coloca o banco de
dados em um estado de transação consistente.
modelo de recuperação
Uma propriedade de banco de dados que controla a manutenção do log de transações em um banco de
dados.Existem três modelos de recuperação: simples, completo e bulk-logged.O modelo de recuperação de
banco de dados determina seus requisitos de backup e de restauração.
restaurar
Um processo multifase que copia todos os dados e páginas de log de um backup do banco de dados para um
outro especificado e, em seguida, efetua roll forward de todas as transações registradas no backup,
aplicando as alterações registradas para avançar os dados no tempo.
Benefícios.
 O backup dos bancos de dados, a execução de procedimentos de restauração de teste nos
backups e o armazenamento de cópias de backups em um local externo seguro evita a
perda de dados potencialmente catastrófica.

 Com backups válidos de um banco de dados, você pode recuperar seus dados de muitas
falhas, do tipo:

o Falha de mídia.

o Por exemplo, erros de usuário, que removem uma tabela por engano.

o Por exemplo, problemas de hardware, uma unidade de disco danificada ou perda


permanente de um servidor.

o Desastres naturais. No ambiente Microsoft, se você usar o Backup do banco de dados


para serviço de armazenamento de Blob do Windows Azure, será possível criar um
backup externo em uma região diferente daquela do seu local de trabalho, o qual
poderá ser usado no caso de um desastre natural afetar seu local.
 Além disso, os backups de um banco de dados são úteis para fins administrativos
rotineiros, como copiar um banco de dados de um servidor para outro, configurar o
espelhamento do banco de dados ou Grupos de Disponibilidade AlwaysOn e fazer
arquivamento.

Introdução às estratégias de backup e restauração.


O backup e a restauração dos dados devem ser personalizados em um ambiente específico e devem
funcionar com os recursos disponíveis. Portanto, um uso confiável de backup e restauração para
recuperação requer uma estratégia de backup e restauração. Uma estratégia de backup e restauração bem
planejada maximiza a disponibilidade dos dados e minimiza a perda de dados, considerando, ao mesmo
tempo, seus requisitos empresariais específicos.
Importante: Coloque o banco de dados e os backups em dispositivos separados. Caso contrário, se o
dispositivo que contém o banco de dados falhar, seus backups ficarão indisponíveis. Colocar os dados e
backups em dispositivos separados também aprimora o desempenho de E/S dos backups gravados e o uso de
produção do banco de dados.
Uma estratégia de backup e restauração contém uma parte de backup e uma parte de restauração. A parte de
backup da estratégia define o tipo e a frequência dos backups, a natureza e velocidade do hardware exigido
para eles, como os backups serão testados, e onde e como a mídia de backup deve ser armazenada
(incluindo considerações de segurança). A parte de restauração da estratégia define quem é responsável pela
execução da restauração e como a restauração deve ser executada para atender às metas de disponibilidade
do banco de dados e minimizar perda de dados. É recomendado que sejam documentados os procedimentos
de backup e restauração e que seja mantida uma cópia da documentação no livro de execuções.
Figura 2 - Fazer restore.

O design de uma estratégia de backup e restauração eficaz requer planejamento, implementação e teste
cuidadosos. O teste é obrigatório. Não existirá uma estratégia de backup até que se tenha restaurado com
êxito os backups em todas as combinações incluídas na estratégia de restauração. É necessário considerar
uma variedade de fatores. Eles incluem o seguinte:

 As metas de produção de sua organização para os bancos de dados, especialmente os


requisitos para disponibilidade e proteção contra perda de dados.

 A natureza de cada um dos seus bancos de dados: o tamanho, os padrões de uso, a


natureza de seu conteúdo, os requisitos dos dados, e assim por diante.

 Restrições de recursos, como hardware, pessoal, espaço para armazenagem de mídia de


backup, a segurança física da mídia armazenada, e assim por diante.

 Impacto do modelo de recuperação no backup e na restauração

 As operações de backup e restauração ocorrem dentro do contexto de um modelo de


recuperação. Um modelo de recuperação é uma propriedade de banco de dados que
controla a forma de gerenciamento do log de transações. Além disso, o modelo de
recuperação de um banco de dados determina para quais tipos de backups e cenários de
restauração o banco de dados oferece suporte. Geralmente, um banco de dados usa o
modelo de recuperação simples ou o modelo de recuperação completa. O modelo de
recuperação completa pode ser suplementado alternando para o modelo de recuperação
bulk-logged antes das operações em massa. Para obter uma introdução a esses modelos
de recuperação e como eles afetam o gerenciamento do log de transações.

 A melhor escolha do modelo de recuperação para o banco de dados depende de seus


requisitos empresariais. Para evitar gerenciamento de log de transações e simplificar o
backup e a restauração, use o modelo de recuperação simples. Para minimizar exposição
à perda de trabalho, às custas de uma sobrecarga administrativa, use o modelo de
recuperação completa.Para obter informações sobre o efeito dos modelos de recuperação
no backup e na restauração.

Planejar a estratégia de backup.


Depois de selecionar um modelo de recuperação que satisfaça seus requisitos empresariais para um banco
de dados específico, é necessário planejar e implementar uma estratégia de backup correspondente. A
melhor estratégia de backup depende de uma série de fatores, dos quais os seguintes são especialmente
significativos:

 Quantas horas ao dia os aplicativos precisam acessar o banco de dados?

 Se houver um período de pouca atividade previsível, recomendamos que você agende


backups de banco de dados completos para aquele período.

 Com que frequência as alterações e atualizações deverão ocorrer?

 Se as alterações forem frequentes, considere o seguinte:

o No modelo de recuperação simples, agende backups diferenciais entre os backups de


banco de dados completos.Um backup diferencial captura só as alterações desde o
último backup completo do banco de dados.

o No modelo de recuperação completa, deve ser agendado backups de log frequentes. O


agendamento de backups diferenciais entre backups completos pode reduzir o tempo
de restauração reduzindo o número de backups de log a serem restaurados após a
restauração dos dados.

 As alterações ocorrem geralmente em uma pequena parte do banco de dados ou em uma


grande parte do banco de dados?

 Para um banco de dados grande no qual mudanças estão concentradas em uma parte dos
arquivos ou grupos de arquivos, backups parciais e backups de arquivo podem ser
úteis.Para obter mais informações.

 Quanto espaço em disco é necessário para um backup completo de banco de dados?


Figura 3 - Planejamento, estratégia

Estimar o tamanho de um backup de banco de dados


completo.
Antes de implementar uma estratégia de backup e restauração, deve ser calculado quanto espaço em disco
um backup de banco de dados completo usará. A operação de backup copia os dados no banco de dados para
o arquivo de backup. O backup contém só os dados reais no banco de dados e não qualquer espaço não
utilizado. Portanto, o backup é geralmente menor do que o próprio banco de dados. É possível estimar o
tamanho de um backup de banco de dados completo usando o procedimento armazenado do
sistema sp_spaceused.Para obter mais informações, consulte
https://msdn.microsoft.com/pt-br/library/ms188776(v=sql.120).aspx .
Agendar backups.
A execução do backup tem um efeito mínimo sobre as transações em andamento; portanto, as operações de
backup podem ser realizadas durante a operação regular. Por exemplo, é possível executar um backup do
SQL Server com um efeito mínimo sobre as cargas de trabalho de produção.
Depois de decidir os tipos de backups necessários e a frequência de execução de cada tipo, recomendável
que sejam agendados backups regulares como parte de um plano de manutenção de banco de dados para o
banco de dados. Para obter informações sobre planos de manutenção e como criá-los para fazer backups de
banco de dados e backups de log, consulte:
https://msdn.microsoft.com/pt-br/library/ms191002(v=sql.120).aspx.
Testar seus backups.
Não existirá uma estratégia de restauração até que você tenha testado seus backups. É muito importante
testar sua estratégia de backup completamente para cada um dos bancos de dados, restaurando uma cópia do
banco de dados em um sistema de teste. É necessário testar a restauração de cada tipo de backup que você
pretende usar.
É recomendado que se mantenha um manual de operações para cada banco de dados. Esse manual
operacional deve documentar o local dos backups, os nomes do dispositivo de backup (se houver) e o tempo
necessário para restaurar os backups de teste.
Apêndice.
Algumas técnicas de backup e restauração de dados no MySQL.
O backup consistente do banco de dados é de extrema importância para que possamos manter a integridade
dos dados caso haja uma falha do sistema, hardware ou até mesmo para corrigir eventuais falhas de
usuários, como por exemplo, a remoção acidental de um banco de dados. Para isto, é importante a adoção de
uma política consistente de backup (diariamente), bem como conhecer as possíveis técnicas para fazê-lo. No
MySQL é possível fazermos backup binário do banco, isto é, será guardado uma cópia da estrutura de
arquivos e diretórios que constituem os seus dos bancos de dados e tabelas. Além disto, pode-se optar pelo
backup dos dados, onde serão armazenados os dados em formato texto ou em forma de comandos SQL.
Vamos descrever aqui como utilizar estas duas formas de backup para a execução de uma cópia consistente
de dados.
Ao realizar o procedimento de backup cria-se uma imagem dos seus dados no momento da execução da
rotina de backup. Quando houver problemas com o seu banco de dados que necessite do backup, você pode
utilizar o seu último backup retornando só os dados para a situação em que o banco se encontrava no
momento deste backup. O que acontece com os dados alterados ou inseridos entre o backup e a falha? No
MySQL você pode habilitar um log binário de alterações (opção log-bin no arquivo de configuração), que
armazenam todos os comandos que modificam a estrutura do banco de dados, sendo que estes podem ser
utilizados para recuperar os dados não contidos no backup. Os logs são criados com a extensão que indica o
número de sequência do log, que é incrementado sempre que um novo log é criado. Para "traduzir" o log
binário em comandos SQL, utilize a ferramenta mysqlbinlog, sendo que a saída deste poderá ser utilizada
diretamente como entrada para o MySQL, como no exemplo:
shell>mysqlbinlog mysql-bin.012 | mysql
ou ainda,
shell> mysqlbinlog mysql-bin.012 > dump.log
shell> mysql < dump.log
Estes comandos deverão ser executados após a restauração do backup. Para facilitar a manipulação do log
na restauração, isto é, como identificar quais os comandos foram executados após o backup, é importante
manter o sincronismo entre o log binário e o backup. Como os logs possuem um número sequencial, utilize
o comando FLUSH LOGS para criar um novo arquivo de log no momento de backup. Assim, estará
garantido que todas alterações após o backup serão armazenadas nos logs criados a partir deste momento.
Na recuperação dos dados basta executar
todos os logs a partir do momento do backup, uma vez que as alterações dos logs anteriores já estarão
contidas no próprio backup.
Uma vez apresentada a utilização dos arquivos de log para restauração de dados, analisamos a primeira
forma de backup que é baseada na cópia dos arquivos do banco de dados. Esta cópia pode ser feita
manualmente com os comandos de cópia do sistema operacional (SO) ou utilizando ferramentas de backup
do próprio SO. Vale ressaltar que para garantir uma cópia consistente destes arquivos é preciso garantir que
não haverá escritas na base de dados durante a execução da rotina de backup. Esta condição pode ser
garantida através de uma parada no gerenciador de banco de dados (SGBD) ou por meio de um bloqueio das
tabelas permitindo apenas a leituras dos dados (lock) durante o backup. É possível fazer um backup online
no MySQL, isto é, sem restrições de utilização do banco para escrita durante o processo de backup, mas
estes métodos serão abordados no próximo artigo.
Para realizar o backup da estrutura física de tabelas MyISAM, basta copiar todos os arquivos MYI, MYD e
frm. No caso de tabelas InnoDB, você deverá copiar os arquivos frm, todos os arquivos de log do InnoDB e
os arquivos que constituem o seu tablespace, que são definidos na variável innodb_data_file_path colocada
no arquivo de configuração do MySQL. Além disto, devem-se copiar o arquivo de configuração, já que o
InnoDB consiste o tamanhos dos arquivos definidos na configuração com os arquivos existentes, em tempo
de inicialização do SGBD, caso estes tamanhos não coincidam o SGBD não iniciará a sua execução. Para
restaurar este tipo de backup, basta copiar os arquivos de volta para os seus locais de origem e aplicar os
logs binários para recuperar os dados alterados entre o backup e o problema com o banco, conforme
apresentado anteriormente.
Para tabelas MyISAM existem algumas ferramentas próprias do MySQL para a realização deste tipo de
backup. O primeiro deles é o comando BACKUP TABLE, que copia os arquivos MYD e frm para o local
especificado. Para restaurar o backup feito com o BACKUP TABLE, execute o comando RESTORE
TABLE, que copiará os arquivos de volta e recriará os índices das tabelas, uma vez que os mesmos não são
copiados pelo BACKUP TABLE. É importante ressaltar que antes de executar o RESTORE TABLE você
terá que remover a tabela, já que o MySQL não sobrescreve arquivos por questões de segurança. Outra
possibilidade é a utilização do script mysqlhotcopy, que bloqueia as tabelas para escrita durante a cópia dos
arquivos, realiza a cópia dos arquivos para o local especificado e libera o lock das tabelas.
O principal problema do backup com cópia de arquivos é o fato de que caso existam arquivos corrompidos o
seu backup herdará esta estrutura inconsistente, e possivelmente acarretará problemas durante a restauração
da base de dados através deste backup. Para contornar esta situação é melhor que se faça uma cópia apenas
dos dados e não dos arquivos. Este tipo de backup pode ser realizado através do comando SELECT .. INTO
OUTFILE ou do cliente mysqldump. Para exportar os dados de uma tabela para um arquivo texto proceda
da seguinte forma:
mysql>SELECT * INTO OUTFILE 'backup-t1.txt'
->FIELDS TERMINATED BY ''
->LINES TERMINATED BY '\n'
->FROM t1;
Neste caso as colunas serão separadas por "tab" e o fim de linha será o caracter "\n", e a importação destes
dados pode ser feita como a seguir:
mysql>LOAD DATA INFILE 'backup-t1.txt' INTO TABLE t1;
A segunda forma para a exportação de dados é através do mysqldump que é uma ferramenta para a
conversão da estrutura do banco de dados em comandos SQL. Existem muitas opções para a execução deste
cliente, estas opções podem ser vistas executando:
shell>mysqldump --help
O modo padrão de execução do mysqldump gera o comando CREATE TABLE para cada tabela e os
comandos INSERTs para cada uma das linhas de dados da tabela. O exemplo a seguir ilustra a exportação
de uma tabela via mysqldump:
shell>mysqldump banco1 tabela1 > backup-tabela1.sql
shell>cat backup-tabela1.sql
CREATE TABLE tabela1 ( id INT NOT NULL PRIMARY KEY, nome CHAR(30) NOT NULL DEFAULT
'' ) type=MyISAM;
INSERT INTO tabela1 VALUES (1, 'Teste 1');
INSERT INTO tabela1 VALUES (2, 'Teste 2');
INSERT INTO tabela1 VALUES (3, 'Teste 3');
INSERT INTO tabela1 VALUES (4, 'Teste 4');
INSERT INTO tabela1 VALUES (5, 'Teste 5');
...
No exemplo acima foi gerado o dump apenas de uma tabela, mas poderíamos obter o backup de todas as
tabelas, informando somente o nome do banco, ou ainda gerar a estrutura para todos os bancos de dados
através da opção --all-databases. Para restaurar o backup feito com o mysqldump basta executar o arquivo
SQL gerado, como a seguir:
mysql>source backup-tabela1.sql;
ou ainda,
shell>mysql banco1 < backup-tabela1.sql;
A vantagem do métodos de backup de cópia de arquivos sobre os de cópia de dados, é que os primeiros
executam em um menor tempo, já que não há necessidade de ler a base de dados e converter os dados em
texto ou comandos SQL. Por outro lado, a cópia de dados é mais segura, já que não há eventuais arquivos
corrompidos, e além disto o backup gerado é portável uma vez que a saída gerada é compatível com vários
outros SGBDs. No próximo artigo vamos examinar técnicas para a realização de backups online do banco
de dados.
http://www.devmedia.com.br/tecnicas-de-backup-e-restauracao-de-dados-no-mysql/2532
Resumo.
Este tópico você estudou os benefícios do backup dos bancos de dados, as condições de backup e
restauração básicas, também foram apresentadas estratégias de backup e restauração para banco de dados,
além de terem sido mostradas considerações de segurança sobre backup e restauração banco.
Backup de sistema e espelhamento
Este tópico tem como objetivo discorrer sobre os conceitos relacionados ao backup de sistemas e
espelhamento.
NESTE TÓPICO
Backup.
O QUE É BACKUP?
Resumo.
Referências
NESTE TÓPICO

Backup.
O QUE É BACKUP?
Resumo.
Referências
Marcar
tópico

Este tópico abrange as várias granularidades e métodos de backup, alem de tratar sobre a arquitetura e as
operações de backup.
Backup.
Um backup e uma copia adicional dos dados de produção, criados e retidos para o único propósito de
recuperar dados perdidos ou corrompidos. Com o crescimento dos negócios e das exigências de
conformidade para arquivamento, retenção e disponibilidade de dados, as empresas se deparam com a tarefa
de fazer o backup de uma quantidade cada vez maior de dados. Esta tarefa torna-se mais difícil com o
crescimento de informações, orçamentos de TI estagnados e menos tempo para fazer os backups. Alem
disso, as empresas precisam de uma recuperação rápida dos dados que estão no backup, para atender os
acordos a nível de serviços de negócios (SLAs - business service-level agreements).
Os backups são executados para atender a três propósitos: recuperação de desastres, recuperação
operacional e arquivamento.
Os backups podem ser executados para atender as necessidades de recuperação de desastres . As copias de
backup são utilizadas para recuperar dados em um local alternativo quando o local principal estiver
impossibilitado devido a um desastre. Com base nas exigências de RPO e RTO, as empresas utilizam
estratégias diferentes de proteção de dados para a recuperação de desastres. Dados, em um ambiente de
produção, mudam a cada transação e operação de negócios. Os backups são utilizados para recuperar os
dados, caso ocorra a sua perda ou corrupção lógica durante o processo rotineiro. A maioria das solicitações
de restauração, em muitas empresas, são deste tipo. Por exemplo, é comum um usuário excluir
acidentalmente um e-mail importante ou um arquivo ser corrompido, ambos podem ser restaurados
utilizando o backup de dados. Os backups também são realizados para atender aos requisitos de
arquivamento.
O QUE É BACKUP?

Backup é uma cópia adicional dos dados de produção, criados e retidos com o único propósito de recuperar
dados perdidos ou corrompidos.
As empresas também fazem o backup para atender os requisitos de conformidade.
Os backups são executados para atender a três propósitos:
- Recuperação de desastres
- Recuperação operacional
- Arquivamento
Embora a granularidade do backup depende das necessidades da empresa e do RTO/RPO exigido.
Com base na granularidade, os backups podem ser categorizados como completo, incremental e cumulativo
ou (diferencial). Muitas empresas utilizam a combinação destes três tipos de backups para atender seus
requisitos de backup e recuperação. A figura 2 retrata os diferentes níveis de granularidade de backup.
Backup completo é o backup de todos os dados nos volumes de produção. Uma copia de backup completa é
criada copiando os dados dos volumes de produção para o dispositivo de armazenamento de backup. Ele
oferece uma recuperação mais rápida, mas necessita de mais espaço de armazenamento, além de levar mais
tempo para se fazer o backup. Backup incremental copia os dados que foram mudados desde do ultimo
backup completo ou incremental, o que for mais recente. É muito mais rápido do que o backup completo,
pois o volume de dados é restrito somente aos dados modificados, porém leva-se mais tempo para serem
restaurados. Backup cumulativo copia os dados que foram modificados desde o ultimo backup. Este método
leva mais tempo do que o backup incremental, porém é mais rápido para ser restaurado.
Um outro modo de implementar o backup completo é o backup sintético ou construído. Este método é
utilizado quando os recursos do volume de produção não podem ser reservados, exclusivamente para o
processo de backup, por longos períodos, para executar um backup completo. É geralmente criado a partir
do backup completo mais recente e de todos os backups incrementais executados após o backup completo.
Este backup também é chamado de sintético, pois o backup não é criado diretamente dos dados de
produção. Um backup completo sintético possibilita que uma cópia de backup completo seja criada off-line
sem interromper a operação de I/O no volume de produção.
Figura 2 - Granularidade do backup.
Fonte: Fonte: EMC - modulo 10 - Backup e arquivamento. Copyright © 2012 EMC Corporation.

O processo de restauração, a partir de um backup incremental, necessita do ultimo backup completo e de


todos os backups incrementais disponíveis até o ponto de restauração.
Considere o exemplo: um backup completo é executado na noite de segunda-feira. Um backup incremental e
executado todos os dias após segunda-feira.Na terça-feira, um novo arquivo (arquivo 4 mostrado na figura
3) é acrescentado, e não há alterações nos outros arquivos. Consequentemente, somente o arquivo 4 é
copiado durante a execução do backup incremental na noite de terça-feira. Na quarta-feira, nenhum arquivo
e acrescentado, mas o arquivo 3 é modificado. Portanto, somente o arquivo 3 modificado é copiado durante
o backup incremental na noite de quarta-feira. Da mesma forma, o backup incremental na quinta-feira faz a
cópia somente do arquivo 5. Na manhã de sexta-feira, há corrupção de dados, o que exige a restauração dos
dados a partir do backup. O primeiro passo para a restauração dos dados é restaurar todos os dados à partir
do backup completo da noite de segunda-feira. O próximo passo é aplicar os backups incrementais de terça-
feira, quarta-feira e quinta-feira. Deste modo, os dados podem ser recuperados ao seu estado anterior com
sucesso, como eram na noite de quinta-feira.
Figura 3 - Restauração a partir do backup incremental.
Fonte: Fonte: EMC - modulo 10 - Backup e arquivamento. Copyright © 2012 EMC Corporation.

Considere o exemplo, um backup completo de dados da empresa e efetuado na noite de segunda-feira.


Todos os dias após segunda-feira, é efetuado um backup cumulativo. Na terça-feira, o arquivo 4 é
acrescentado e nenhum dado e modificado desde o backup completo executado na noite de segunda-feira.
Consequentemente, o backup cumulativo na noite de terça-feira copia somente o arquivo 4. Na quarta-feira,
o arquivo 5 e acrescentado. O backup cumulativo, executado na noite de quarta, copia os arquivos 4 e 5,
pois estes arquivos foram adicionados ou modificados desde o último backup completo. Da mesma forma,
na quinta-feira, o arquivo 6 é acrescentado. Portanto, o backup cumulativo na noite de quinta-feira, faz
copias dos três arquivos: arquivo 4, arquivo 5 e arquivo 6. Na manha de sexta-feira, há corrupção de dados,
exigindo a restauração dos dados utilizando as copias de backup. O primeiro passo para se restaurar os
dados e restaurar todos os dados a partir do backup completo da noite de segunda-feira. O próximo passo é
aplicar somente o ultimo backup cumulativo, que foi feito na noite de quinta-feira. Desta forma, os dados de
produção podem ser recuperados mais rapidamente, pois somente duas copias dos dados são necessárias, o
ultimo backup completo e o backup cumulativo mais recente.
Figura 4 - Restauração a partir do backup cumulativo.
Fonte: Fonte: EMC - modulo 10 - Backup e arquivamento. Copyright © 2012 EMC Corporation.

Um sistema de backup normalmente utiliza a arquitetura de servidor-cliente com um servidor de backup e


múltiplos clientes de backup. A figura 3 ilustra a arquitetura de backup. O servidor de backup gerencia as
operações de backup e mantém o catalogo de backup, que contem informações sobre a configuração e
metadados de backup. A configuração de backup contem informações sobre quando executar os backups,
quais os dados do cliente a serem feitos backups, etc, e os metadados de backup contém informações sobre
os dados que serão feito backups. O papel do cliente de backup é reunir os dados, dos quais serão feitos
backups e envia-los ao nó de armazenamento. Ele também envia as informações de rastreamento para o
servidor de backup.
O nó de armazenamento é responsável por gravar os dados no dispositivo de backup. No ambiente de
backup, o nó de armazenamento e um host que controla os dispositivos de backup e que, também, envia
informações de armazenamento para o servidor de backup. Em muito casos, o nó de armazenamento e
integrado ao servidor de backup, e os dois estão hospedados na mesma plataforma física. O dispositivo de
backup é anexado diretamente, ou através da rede, à plataforma do host do nó de armazenamento. Algumas
arquiteturas de backup referem-se ao nó de armazenamento como servidor de mídia, pois gerencia o
dispositivo de armazenamento.

Figura 5 - Arquitetura do backup.


Fonte: Fonte: EMC - modulo 10 - Backup e arquivamento. Copyright © 2012 EMC Corporation.

Quando a operação de backup é iniciada, uma significativa comunicação de rede acontece entre os
diferentes componentes da infraestrutura de backup. A operação de backup é normalmente iniciada pelo
servidor, mas ela também pode ser iniciada por um cliente. O servidor de backup inicia o processo de
backup para diferentes clientes com base no horário configurado por eles. Por exemplo, o backup para um
grupo de clientes pode estar agendado para iniciar as 3h da manhã todos os dias.
O servidor de backup coordena o processo de backup com todos os componentes no ambiente de backup. O
servidor de backup mantém as informações sobre os clientes de backup para fazer o backup e os nós de
armazenamento para serem utilizados na operação de backup. O backup recupera as informações
relacionadas do catálogo do backup e, com base nestas informações, instrui o nó de armazenamento a
carregar a mídia de backup apropriada para o dispositivo de backup. Simultaneamente, ele instrui os
clientes de backup a reunir as informações para backup e as envia pela rede ao nó de armazenamento
designado. Depois que os dados de backup são enviados para os nós de armazenamento, o cliente envia
metadados de backup (o número de arquivos, o nome dos arquivos, os detalhes do nó de armazenamento,
etc.) para o servidor de backup. O nó de armazenamento recebe os dados do cliente, os organiza e os envia
para o dispositivo de backup. O nó de armazenamento, então, envia os metadados de backup adicionais
(localização de dados no dispositivo de backup, o horário do backup, etc.) para o servidor de backup. O
servidor de backup atualiza estas informações no catalogo de backup.
Operação de backup.
Fonte: Fonte: EMC - modulo 10 - Backup e arquivamento. Copyright © 2012 EMC Corporation.
Depois que foi feito o backup dos dados, eles podem ser restaurados quando for necessário. O processo de
restauração deve ser iniciado manualmente a partir do cliente. Alguns softwares de backup possuem um
aplicativo separado para operações de restauração. Estes aplicativos de restauração são normalmente
acessíveis somente ao administrador ou operadores de backup. A figura 7 nos mostra uma operação de
restauração.
Ao receber uma solicitação de restauração, o administrador abre um aplicativo de restauração para
visualizar os clientes que fizeram backups.Ao selecionar o cliente para o qual a solicitação de restauração
foi feita, o administrador também precisa identificar o cliente que receberá os dados restaurados.Os dados
podem ser restaurados pelo mesmo cliente para quem a solicitação de restauração foi feita ou por qualquer
outro cliente. Em seguida, o administrador seleciona os dados a serem restaurados e o ponto especifico no
tempo para o qual os dados tem que ser restaurados com base no RPO. Como todas estas informações vem
do catalogo de backup, o aplicativo de restauração precisa se comunicar com o servidor de backup.
O servidor de backup instrui o nó de armazenamento adequado para preparar a mídia de backup especifica
no dispositivo de backup. Em seguida, os dados são lidos e enviados ao cliente identificado para receber os
dados recuperados.
Algumas restaurações são realizadas com sucesso, recuperando somente os dados de produção solicitados.
Por exemplo, o processo de recuperação de uma planilha é concluído quando o arquivo especifico é
restaurado. Nas restaurações de um banco de dados, dados adicionais, como arquivos de registros, devem
ser restaurados juntamente com os dados de produção. Isto assegura a consistência dos dados recuperados.
Nestes casos, o RTO é prolongado devido às etapas adicionais na operação de restauração.
Figura 7 - Operação de recuperação.
Fonte: Fonte: EMC - modulo 10 - Backup e arquivamento. Copyright © 2012 EMC Corporation.
Backup dinâmico e backup estático são dois métodos implementados para fazer backup. Eles tem como base
o estado do aplicativo quando o backup é executado. No backup dinâmico, o aplicativo esta ativo e em
execução, com usuários acessando seus dados durante o processo de backup. Este método de fazer backup
também e conhecido como backup online. O backup estático precisa que o aplicativo esteja desligado
durante o processo de backup. Portanto, este método também é conhecido como backup off-line.
O backup dinâmico de dados de produção on-line é um desafio, pois os dados estão sendo utilizados e
modificados. Normalmente, não e feito o backup de um arquivo se este estiver aberto durante o processo de
backup. Nestes casos, é necessário um agente de arquivo aberto para fazer o backup. Estes agentes
interagem diretamente com o sistema operacional ou aplicativo, possibilitando a criação de copias
consistentes de arquivos abertos. A desvantagem do backup dinâmico é que os agentes normalmente afetam
o desempenho geral do aplicativo. Backups consistentes de banco de dados também podem ser realizados
utilizando o backup estático. Isto exige que o banco de dados permaneça inativo durante o backup. É claro
que a desvantagem do backup estático é que o banco de dados fica inacessível aos usuários durante o
processo de backup. Deve-se fazer o backup de todos os arquivos em um mesmo estado para que o backup
do banco de dados, composto de muitos arquivos, seja consistente.
Em um ambiente de recuperação de desastres, recuperação bare-metal (BMR) se refere ao backup feito,
adequadamente, das configurações do SO, do hardware e do aplicativo para uma recuperação total do
sistema. BMR constrói o sistema básico que inclui o particionamento, o layout do file system, o sistema
operacional, os aplicativos e todas as configurações relevantes.
MÉTODOS PARA FAZER BACKUP

Dois métodos para fazer backup, com base no estado do aplicativo quando o backup é executado
- Dinâmico ou on-line
O aplicativo está instalado e em execução, com os usuários acessando seus dados
durante o backup
O agente de arquivo aberto pode ser utilizado para fazer backup de arquivos abertos
- Estático ou off-line
É necessário qua o aplicativo esteja desligado durante o processo de backup
Recuperação bare-metal
- O backup das configurações do SO do hardware e do aplicativo é devidamente efetuado para
uma recuperação total do sistema
- O backup de configuração do servidor (SCB) pode também recuperar um servidor mesmo em
um hardware diferente
Muitas empresas gastam uma quantidade considerável de tempo e dinheiro protegendo seus dados de
aplicativos, porem dão pouca atenção à proteção das configurações de seus servidores. Durante a
recuperação de desastres, as configurações do servidor devem ser recriadas antes que os aplicativos e dados
estejam acessíveis ao usuário. O processo de recuperação do sistema envolve a reinstalação das
configurações do sistema operacional, dos aplicativos e do servidor e, depois, a recuperação de dados.
Durante uma operação normal de backup de dados, não é feito o backup das configurações do servidor
necessárias para a recuperação do sistema. Backup de configuração de servidor (SCB) cria e faz o backup
dos perfis da configuração do servidor com base na programação definida pelo usuário. Os perfis de backup
são utilizados para configurar o servidor de recuperação no caso de falha do servidor de produção. SCB
possui a capacidade de recuperar um servidor para um hardware diferente.
Em um backup de configuração do servidor, o processo de fazer um snapshot da configuração do servidor
do aplicativo (tanto das configurações do sistema como do aplicativo) é conhecido como "definição de
perfis". Os dados do perfil incluem as configurações do sistema operacional, da rede, de segurança, as
definições de registros, as configurações de aplicativo, etc. Sendo assim, a definição de perfil permite
recuperar a configuração de um sistema com defeitos para um novo servidor, independentemente do
hardware subjacente.
Existem dois tipos de perfis gerados no ambiente de backup de configuração do servidor: perfil de base e
perfil estendido. O perfil de base contem os principais elementos do sistema operacional necessários para
recuperar o servidor. O perfil estendido é, normalmente, maior do que o de base e contém todas as
informações necessárias para reconstruir o ambiente do aplicativo.
BACKUP DA CONFIGURAÇÃO DO SERVIDOR

Cria e faz backup dos perfis de configuração do servidor, com base no agendamento definido pelo usuário
- Os perfis são utilizados para configurar o servidor de recuperação no caso de falha do
servidor de produção
- Os perfis incluem as configurações do SO da rede de segurança, definições de registros,
configurações do aplicativo
Dois tipos de perfis utilizados
- Perfil de base
Contém os principais elementos do SO necessários para recuperar o servidor
- Perfil estendido
Normalmente maior do que o perfil de base e possui todas as informações necessárias para reconstruir
o ambiente do aplicativo
A quantidade de perda de dados e de inatividades que uma empresa pode suportar em temos de RPO e RTO
são as principais considerações ao selecionar e implementar uma estratégia especifica de fazer o backup. O
RPO determina a frequência de fazer o backup. Por exemplo, caso um aplicativo necessite de um RPO de 1
dia, seria necessário que fosse feito o backup dos dados pelo menos uma vez ao dia, todos os dias. Uma
outra consideração é o período de retenção, que define a duração pela qual a empresa necessita reter as
cópias de backup.
O tipo de mídia de backup ou o destino do backup é uma outra consideração que é conduzida pelo RTO e
causa impacto no tempo de recuperação de dados. As empresas devem considerar, também, a granularidade
dos backups. O desenvolvimento da estratégia de backup deve incluir a decisão sobre o tempo mais
apropriado para executar o backup para minimizar qualquer interrupção nas operações de produção. Deve-se
considerar também o tamanho, o numero de arquivos e a compactação de dados, pois podem afetar o
processo de backup. Leva-se menos tempo para fazer backup de arquivos grandes (por exemplo, 10 arquivos
de 1 MB) do que fazer backup da mesma quantidade de dados compostos em pequenos arquivos ( por
exemplo, dez mil arquivos de 1KB). A compactação de dados e a desduplicação de dados (discutido
anteriormente) são amplamente utilizados em ambientes de backup, pois estas tecnologias economizam
espaço na mídia.
A localização é uma consideração importante para os dados a serem incluídos no backup. Muitas empresas
possuem muitas plataformas heterogêneas, locais ou remotas, dando suporte aos seus negócios. O processo
de backup deve atender estas origens para uma integridade transacional e de conteúdo.
PRINCIPAIS CONSIDERAÇÕES DE BACKUP/RESTAURAÇÃO

As necessidades dos negócios do cliente determina:


- Quais são os requisitos de restauração - RPO & RTO?
- Quais dados precisam ser feitos backups?
- Com que frequência é necessário fazer o backup dos dados?
- Quanto tempo levará para se fazer o backup?
- Quantas cópias devem ser criadas?
- Por quanto tempo é necessário reter as cópias do backup?
- Localização, tamanho e número de arquivos?
Resumo.
Neste tópico foi considerada uma breve definição de backup, as várias granularidades e métodos de backup,
incluindo backup incremental, cumulativo e recuperação a partir do backup cumulativo. Nele também foi
visto a arquitetura e recuperação de backup, os métodos para se fazer backup e por último foi abordado o
backup da configuração do servidor e as principais considerações sobre backup/restauração.

Criptografia
O objetivo deste tópico é discorrer sobre os conceitos relacionados a criptografia.

NESTE TÓPICO

NESTE TÓPICO
Criptografia.
Criptografia de chave simétrica e de chaves assimétricas.
Função de resumo (Hash).
Programas de criptografia.
Cuidados a serem tomados.
Resumo.
Referências
Marcar
tópico

Este tópico contém as explicações sobre os conceitos e serviços de criptografia como forma de proteção de
mensagens e informações que transitam pelo computador e entre emissários de receptores. Explica também
conceitos gerais sobre chaves de criptografias utilizadas par codificar e decodificar mensagens.
Criptografia.
A criptografia, considerada como a ciência e a arte de escrever mensagens em forma cifrada ou em código,
é um dos principais mecanismos de segurança que você pode usar para se proteger dos riscos associados ao
uso da Internet. A primeira vista ela até pode parecer complicada, mas para usufruir dos benefícios que
proporciona você não precisa estudá-la profundamente e nem ser nenhum matemático experiente.
Atualmente, a criptografia já está integrada ou pode ser facilmente adicionada `a grande maioria dos
sistemas operacionais e aplicativos, sendo que para usá-la, muitas vezes, basta a realização de algumas
configurações ou cliques de mouse. Por meio do uso da criptografia você pode:

 proteger os dados sigilosos armazenados em seu computador, como o seu arquivo de


senhas e a sua declaração de Imposto de Renda;

 criar uma área (partição) específica no seu computador, na qual todas as informações que
forem gravadas nesta área serão automaticamente criptografadas;

 proteger seus backups contra acesso indevido, principalmente aqueles enviados para
áreas de armazenamento externo de mídias;

 proteger as comunicações realizadas pela Internet, como os e-mails enviados/recebidos e


as transações bancárias e comerciais realizadas.

Nas próximas seções são apresentados alguns conceitos de criptografia. Antes, porém,é importante que você
se familiarize com alguns termos geralmente usados e que são mostrados na tabela a seguir:

Termo Significado

Texto Claro Informação legível (original) que será protegida, ou


seja, que será codificada

Texto codificado Texto ilegível, gerado pela codificação de um texto


(cifrado) claro

Codificar (cifrar) Ato de transformar um texto claro em um texto


codificado

Decodificar (decifrar) Ato de transformar um texto codificado em um texto


claro

Método Criptográfico Conjunto de programas responsável por codificar e


decodificar informações

Chave Similar a uma senha, é utilizada como elemento secreto


pelos métodos criptográficos. Seu tamanho é geralmente
medido em quantidade de bits

Canal de comunicação Meio utilizado para a troca de informações

Remetente Pessoa ou serviço que envia a informação

Destinatário Pessoa ou serviço que recebe a informação

Tabela1: Termos empregados em criptografia e comunicações via Internet.

Criptografia de chave simétrica e de chaves assimétricas.


De acordo com o tipo de chave usada, os métodos criptográficos podem ser subdivididos em duas grandes
categorias: criptografia de chave simétrica e criptografia de chaves assimétricas.
Criptografia de chave simétrica: também chamada de criptografia de chave secreta ou única, utiliza uma
mesma chave tanto para codificar como para decodificar informações, sendo usada principalmente para
garantir a confidencialidade dos dados. Casos nos quais a informação é codificada e decodificada por uma
mesma pessoa não há necessidade de compartilhamento da chave secreta. Entretanto, quando estas
operações envolvem pessoas ou equipamentos diferentes, é necessário que a chave secreta seja previamente
combinada por meio de um canal de comunicação seguro (para não comprometer a confidencialidade a
chave). Exemplos de métodos criptográficos que usam chave simétrica são: AES, Blowfish, RC4, 3DES e
IDEA.
Criptografia de chaves assimétricas: também conhecida como criptografia de chave pública, utiliza duas
chaves distintas: uma pública, que pode ser livremente divulgada, e uma privada, que deve ser mantida em
segredo por seu dono.
Quando uma informação é codificada com uma das chaves, somente a outra chave do par pode decodificá-
la. Qual chave usar para codificar depende da proteção que se deseja, se confidencialidade ou autenticação,
integridade e não repúdio. A chave privada pode ser armazenada de diferentes maneiras, como um arquivo
no computador, um smartcard ou um token.
Exemplos de métodos criptográficos que usam chaves assimétricas são: RSA, DSA, ECC e Diffie-
Hellman.
A criptografia de chave simétrica, quando comparada com a de chaves assimétricas, é a mais indicada para
garantir a confidencialidade de grandes volumes de dados, pois seu processamento é mais rápido. Todavia,
quando usada para o compartilhamento de informações, se torna complexa e pouco escalável, em virtude da:

 necessidade de um canal de comunicação seguro para promover o compartilhamento da


chave secreta entre as partes (o que na Internet pode ser bastante complicado) e;

 dificuldade de gerenciamento de grandes quantidades de chaves (imagine quantas chaves


secretas seriam necessárias para você se comunicar com todos os seus amigos).

A criptografia de chaves assimétricas, apesar de possuir um processamento mais lento que a de chave
simétrica, resolve estes problemas visto que facilita o gerenciamento (pois não requer que se mantenha uma
chave secreta com cada um que desejar se comunicar) e dispensa a necessidade de um canal de comunicação
seguro para o compartilhamento de chaves.
Para aproveitar as vantagens de cada um destes métodos, o ideal é o uso combinado de ambos, onde a
criptografia de chave simétrica é usada para a codificação da informação e a criptografia de chaves
assimétricas é utilizada para o compartilhamento da chave secreta (neste caso, também chamada de chave
de sessão). Este uso combinado é o que é utilizado pelos navegadores Web e também por programas leitores
de e-mails. Exemplos de uso deste método combinado são: SSL, PGP e S/MIME.
Função de resumo (Hash).
Uma função de resumo é um método criptográfico que, quando aplicado sobre uma informação,
independente do tamanho que ela tenha, gera um resultado único e de tamanho fixo, chamado hash, sendo
que o hash é gerado de tal forma que não é possível realizar o processamento inverso para se obter a
informação original e que qualquer alteração na informação original produzirá um hash distinto. Apesar de
ser teoricamente possível que informações diferentes gerem hashes iguais, a probabilidade disto ocorrer é
bastante baixa.
Você pode utilizar hash para:

 verificar a integridade de um arquivo armazenado em seu computador ou em seus


backups;
 verificar a integridade de um arquivo obtido da Internet (alguns sites, além do arquivo em
si, também disponibilizam o hash correspondente, para que você possa verificar se o
arquivo foi corretamente transmitido e gravado);

 gerar assinaturas digitais, como descrito logo a seguir.

Para verificar a integridade de um arquivo, por exemplo, você pode calcular o hash dele e, quando julgar
necessário, gerar novamente este valor. Se os dois hashes forem iguais então você pode concluir que o
arquivo não foi alterado. Caso contrário, este pode ser um forte indício de que o arquivo esteja corrompido
ou que foi modificado. Exemplos de métodos de hash são: SHA-1, SHA-256 e MD5.

Figura 1 - Texto codificado.

Programas de criptografia.
Para garantir a segurança das suas mensagens é importante usar programas leitores de e-mails com suporte
nativo a criptografia (por exemplo, que implementam S/MIME - Secure/Multipurpose Internet Mail
Extensions) ou que permitam a integração de outros programas e complementos específicos para este fim.
Programas de criptografia, como o GnuPG (ver http://www.gnupg.org/, sendo que o GnuPG - não utiliza o
conceito de certificados digitais emitidos por uma hierarquia de autoridades certificadoras. A confiança nas
chaves é estabelecida por meio do modelo conhecido como “rede de confiança”, no qual prevalece a
confiança entre cada entidade), além de poderem ser integrados aos programas leitores de e-mails, também
podem ser usados separadamente para cifrar outros tipos de informação, como os arquivos armazenados em
seu computador ou em mídias removíveis.
Existem também programas (nativos do sistema operacional ou adquiridos separadamente) que permitem
cifrar todo o disco do computador, diretórios de arquivos e dispositivos de armazenamento externo (como
pen-drives e discos), os quais visam preservar o sigilo das informações em caso de perda ou furto do
equipamento.
Cuidados a serem tomados.
Proteja seus dados:

 utilize criptografia sempre que, ao enviar uma mensagem, quiser assegurar-se que
somente o destinatário possa lê-la;

 utilize assinaturas digitais sempre que, ao enviar uma mensagem, quiser assegurar ao
destinatário que foi você quem a enviou e que o conteúdo não foi alterado;

 só envie dados sensíveis após certificar-se de que está usando uma conexão segura;

 utilize criptografia para conexão entre seu leitor de e-mails e os servidores de e-mail do
seu provedor;

 cifre o disco do seu computador e dispositivos removíveis, como disco externo e pen-
drive. Desta forma, em caso de perda ou furto do equipamento, seus dados não poderão
ser indevidamente acessados;

 verifique o hash, quando possível, dos arquivos obtidos pela Internet (isto permite que
você detecte arquivos corrompidos ou que foram indevidamente alterados durante a
transmissão). Seja cuidadoso com as suas chaves e certificados:

 utilize chaves de tamanho adequado. Quanto maior a chave, mais resistente ela será a
ataques de força bruta;

 não utilize chaves secretas óbvias;

 certifique-se de não estar sendo observado ao digitar suas chaves e senhas de proteção;

 utilize canais de comunicação seguros quando compartilhar chaves secretas;

 armazene suas chaves privadas com algum mecanismo de proteção, como por exemplo
senha, para evitar que outra pessoa faça uso indevido delas;

 preserve suas chaves. Procure fazer backups e mantenha-os em local seguro (se você
perder uma chave secreta ou privada, não poderá decifrar as mensagens que dependiam
de tais chaves);

 tenha muito cuidado ao armazenar e utilizar suas chaves em computadores


potencialmente infectados ou comprometidos, como em LAN houses, cybercafes, stands
de eventos, etc;

 se suspeitar que outra pessoa teve acesso `a sua chave privada (por exemplo, porque
perdeu o dispositivo em que ela estava armazenada ou porque alguém acessou
indevidamente o computador onde ela estava guardada), solicite imediatamente a
revogação do certificado junto `a AC emissora.

Seja cuidadoso ao aceitar um certificado digital:

 mantenha seu sistema operacional e navegadores Web atualizados (além disto contribuir
para a segurança geral do seu computador, também serve para manter as cadeias de
certificados sempre atualizadas);

 mantenha seu computador com a data correta. Além de outros benefícios, isto impede
que certificados válidos sejam considerados não confiáveis e, de forma contrária, que
certificados não confiáveis sejam considerados válidos;

 ao acessar um site Web, observe os símbolos indicativos de conexão segura e leia com
atenção eventuais alertas exibidos pelo navegador;

 caso o navegador não reconheça o certificado como confiável, apenas prossiga com a
navegação se tiver certeza da idoneidade da instituição e da integridade do certificado,
pois, do contrário, poderá estar aceitando um certificado falso, criado especificamente
para cometer fraudes

Resumo.
Nste tópico foram vistas as explicações sobre os conceitos e serviços de criptografia como forma de
proteção de mensagens e informações que transitam pelo computador e entre emissários de receptores. Foi
explicado também conceitos gerais sobre chaves de criptografias utilizadas par codificar e decodificar
mensagens.

Criptografia
O objetivo deste tópico é discorrer sobre os conceitos relacionados a criptografia.

NESTE TÓPICO

NESTE TÓPICO

Criptografia.
Criptografia de chave simétrica e de chaves assimétricas.
Função de resumo (Hash).
Programas de criptografia.
Cuidados a serem tomados.
Resumo.
Referências
Marcar
tópico

Este tópico contém as explicações sobre os conceitos e serviços de criptografia como forma de proteção de
mensagens e informações que transitam pelo computador e entre emissários de receptores. Explica também
conceitos gerais sobre chaves de criptografias utilizadas par codificar e decodificar mensagens.
Criptografia.
A criptografia, considerada como a ciência e a arte de escrever mensagens em forma cifrada ou em código,
é um dos principais mecanismos de segurança que você pode usar para se proteger dos riscos associados ao
uso da Internet. A primeira vista ela até pode parecer complicada, mas para usufruir dos benefícios que
proporciona você não precisa estudá-la profundamente e nem ser nenhum matemático experiente.
Atualmente, a criptografia já está integrada ou pode ser facilmente adicionada `a grande maioria dos
sistemas operacionais e aplicativos, sendo que para usá-la, muitas vezes, basta a realização de algumas
configurações ou cliques de mouse. Por meio do uso da criptografia você pode:

 proteger os dados sigilosos armazenados em seu computador, como o seu arquivo de


senhas e a sua declaração de Imposto de Renda;

 criar uma área (partição) específica no seu computador, na qual todas as informações que
forem gravadas nesta área serão automaticamente criptografadas;

 proteger seus backups contra acesso indevido, principalmente aqueles enviados para
áreas de armazenamento externo de mídias;

 proteger as comunicações realizadas pela Internet, como os e-mails enviados/recebidos e


as transações bancárias e comerciais realizadas.

Nas próximas seções são apresentados alguns conceitos de criptografia. Antes, porém,é importante que você
se familiarize com alguns termos geralmente usados e que são mostrados na tabela a seguir:

Termo Significado

Texto Claro Informação legível (original) que será protegida, ou


seja, que será codificada

Texto codificado Texto ilegível, gerado pela codificação de um texto


(cifrado) claro
Codificar (cifrar) Ato de transformar um texto claro em um texto
codificado

Decodificar (decifrar) Ato de transformar um texto codificado em um texto


claro

Método Criptográfico Conjunto de programas responsável por codificar e


decodificar informações

Chave Similar a uma senha, é utilizada como elemento secreto


pelos métodos criptográficos. Seu tamanho é geralmente
medido em quantidade de bits

Canal de comunicação Meio utilizado para a troca de informações

Remetente Pessoa ou serviço que envia a informação

Destinatário Pessoa ou serviço que recebe a informação

Tabela1: Termos empregados em criptografia e comunicações via Internet.

Criptografia de chave simétrica e de chaves assimétricas.


De acordo com o tipo de chave usada, os métodos criptográficos podem ser subdivididos em duas grandes
categorias: criptografia de chave simétrica e criptografia de chaves assimétricas.
Criptografia de chave simétrica: também chamada de criptografia de chave secreta ou única, utiliza uma
mesma chave tanto para codificar como para decodificar informações, sendo usada principalmente para
garantir a confidencialidade dos dados. Casos nos quais a informação é codificada e decodificada por uma
mesma pessoa não há necessidade de compartilhamento da chave secreta. Entretanto, quando estas
operações envolvem pessoas ou equipamentos diferentes, é necessário que a chave secreta seja previamente
combinada por meio de um canal de comunicação seguro (para não comprometer a confidencialidade a
chave). Exemplos de métodos criptográficos que usam chave simétrica são: AES, Blowfish, RC4, 3DES e
IDEA.

Criptografia de chaves assimétricas: também conhecida como criptografia de chave pública, utiliza duas
chaves distintas: uma pública, que pode ser livremente divulgada, e uma privada, que deve ser mantida em
segredo por seu dono.
Quando uma informação é codificada com uma das chaves, somente a outra chave do par pode decodificá-
la. Qual chave usar para codificar depende da proteção que se deseja, se confidencialidade ou autenticação,
integridade e não repúdio. A chave privada pode ser armazenada de diferentes maneiras, como um arquivo
no computador, um smartcard ou um token.
Exemplos de métodos criptográficos que usam chaves assimétricas são: RSA, DSA, ECC e Diffie-
Hellman.
A criptografia de chave simétrica, quando comparada com a de chaves assimétricas, é a mais indicada para
garantir a confidencialidade de grandes volumes de dados, pois seu processamento é mais rápido. Todavia,
quando usada para o compartilhamento de informações, se torna complexa e pouco escalável, em virtude da:

 necessidade de um canal de comunicação seguro para promover o compartilhamento da


chave secreta entre as partes (o que na Internet pode ser bastante complicado) e;

 dificuldade de gerenciamento de grandes quantidades de chaves (imagine quantas chaves


secretas seriam necessárias para você se comunicar com todos os seus amigos).

A criptografia de chaves assimétricas, apesar de possuir um processamento mais lento que a de chave
simétrica, resolve estes problemas visto que facilita o gerenciamento (pois não requer que se mantenha uma
chave secreta com cada um que desejar se comunicar) e dispensa a necessidade de um canal de comunicação
seguro para o compartilhamento de chaves.
Para aproveitar as vantagens de cada um destes métodos, o ideal é o uso combinado de ambos, onde a
criptografia de chave simétrica é usada para a codificação da informação e a criptografia de chaves
assimétricas é utilizada para o compartilhamento da chave secreta (neste caso, também chamada de chave
de sessão). Este uso combinado é o que é utilizado pelos navegadores Web e também por programas leitores
de e-mails. Exemplos de uso deste método combinado são: SSL, PGP e S/MIME.
Função de resumo (Hash).
Uma função de resumo é um método criptográfico que, quando aplicado sobre uma informação,
independente do tamanho que ela tenha, gera um resultado único e de tamanho fixo, chamado hash, sendo
que o hash é gerado de tal forma que não é possível realizar o processamento inverso para se obter a
informação original e que qualquer alteração na informação original produzirá um hash distinto. Apesar de
ser teoricamente possível que informações diferentes gerem hashes iguais, a probabilidade disto ocorrer é
bastante baixa.
Você pode utilizar hash para:

 verificar a integridade de um arquivo armazenado em seu computador ou em seus


backups;

 verificar a integridade de um arquivo obtido da Internet (alguns sites, além do arquivo em


si, também disponibilizam o hash correspondente, para que você possa verificar se o
arquivo foi corretamente transmitido e gravado);

 gerar assinaturas digitais, como descrito logo a seguir.


Para verificar a integridade de um arquivo, por exemplo, você pode calcular o hash dele e, quando julgar
necessário, gerar novamente este valor. Se os dois hashes forem iguais então você pode concluir que o
arquivo não foi alterado. Caso contrário, este pode ser um forte indício de que o arquivo esteja corrompido
ou que foi modificado. Exemplos de métodos de hash são: SHA-1, SHA-256 e MD5.

Figura 1 - Texto codificado.

Programas de criptografia.
Para garantir a segurança das suas mensagens é importante usar programas leitores de e-mails com suporte
nativo a criptografia (por exemplo, que implementam S/MIME - Secure/Multipurpose Internet Mail
Extensions) ou que permitam a integração de outros programas e complementos específicos para este fim.
Programas de criptografia, como o GnuPG (ver http://www.gnupg.org/, sendo que o GnuPG - não utiliza o
conceito de certificados digitais emitidos por uma hierarquia de autoridades certificadoras. A confiança nas
chaves é estabelecida por meio do modelo conhecido como “rede de confiança”, no qual prevalece a
confiança entre cada entidade), além de poderem ser integrados aos programas leitores de e-mails, também
podem ser usados separadamente para cifrar outros tipos de informação, como os arquivos armazenados em
seu computador ou em mídias removíveis.
Existem também programas (nativos do sistema operacional ou adquiridos separadamente) que permitem
cifrar todo o disco do computador, diretórios de arquivos e dispositivos de armazenamento externo (como
pen-drives e discos), os quais visam preservar o sigilo das informações em caso de perda ou furto do
equipamento.
Cuidados a serem tomados.
Proteja seus dados:

 utilize criptografia sempre que, ao enviar uma mensagem, quiser assegurar-se que
somente o destinatário possa lê-la;

 utilize assinaturas digitais sempre que, ao enviar uma mensagem, quiser assegurar ao
destinatário que foi você quem a enviou e que o conteúdo não foi alterado;

 só envie dados sensíveis após certificar-se de que está usando uma conexão segura;

 utilize criptografia para conexão entre seu leitor de e-mails e os servidores de e-mail do
seu provedor;

 cifre o disco do seu computador e dispositivos removíveis, como disco externo e pen-
drive. Desta forma, em caso de perda ou furto do equipamento, seus dados não poderão
ser indevidamente acessados;

 verifique o hash, quando possível, dos arquivos obtidos pela Internet (isto permite que
você detecte arquivos corrompidos ou que foram indevidamente alterados durante a
transmissão). Seja cuidadoso com as suas chaves e certificados:

 utilize chaves de tamanho adequado. Quanto maior a chave, mais resistente ela será a
ataques de força bruta;

 não utilize chaves secretas óbvias;

 certifique-se de não estar sendo observado ao digitar suas chaves e senhas de proteção;

 utilize canais de comunicação seguros quando compartilhar chaves secretas;

 armazene suas chaves privadas com algum mecanismo de proteção, como por exemplo
senha, para evitar que outra pessoa faça uso indevido delas;

 preserve suas chaves. Procure fazer backups e mantenha-os em local seguro (se você
perder uma chave secreta ou privada, não poderá decifrar as mensagens que dependiam
de tais chaves);

 tenha muito cuidado ao armazenar e utilizar suas chaves em computadores


potencialmente infectados ou comprometidos, como em LAN houses, cybercafes, stands
de eventos, etc;

 se suspeitar que outra pessoa teve acesso `a sua chave privada (por exemplo, porque
perdeu o dispositivo em que ela estava armazenada ou porque alguém acessou
indevidamente o computador onde ela estava guardada), solicite imediatamente a
revogação do certificado junto `a AC emissora.

Seja cuidadoso ao aceitar um certificado digital:


 mantenha seu sistema operacional e navegadores Web atualizados (além disto contribuir
para a segurança geral do seu computador, também serve para manter as cadeias de
certificados sempre atualizadas);

 mantenha seu computador com a data correta. Além de outros benefícios, isto impede
que certificados válidos sejam considerados não confiáveis e, de forma contrária, que
certificados não confiáveis sejam considerados válidos;

 ao acessar um site Web, observe os símbolos indicativos de conexão segura e leia com
atenção eventuais alertas exibidos pelo navegador;

 caso o navegador não reconheça o certificado como confiável, apenas prossiga com a
navegação se tiver certeza da idoneidade da instituição e da integridade do certificado,
pois, do contrário, poderá estar aceitando um certificado falso, criado especificamente
para cometer fraudes

Resumo.
Nste tópico foram vistas as explicações sobre os conceitos e serviços de criptografia como forma de
proteção de mensagens e informações que transitam pelo computador e entre emissários de receptores. Foi
explicado também conceitos gerais sobre chaves de criptografias utilizadas par codificar e decodificar
mensagens.

Principais algoritmos de criptografia


Este tópico relaciona e descreve os principais algoritmos utilizados para a codificação do processo de troca
de mensagens criptográficas.
NESTE TÓPICO
Data Encryption Standard (DES).
Triple Data Encryption Standard (3DES).
Advanced Encryption Standard (AES).
Funcionamento.
RC4.
Aplicação e segurança.
SQL Server 2014 Outras versões.
Esclarecimento em relação aos algoritmos DES.
Resumo.
Referências
NESTE TÓPICO

Data Encryption Standard (DES).


Triple Data Encryption Standard (3DES).
Advanced Encryption Standard (AES).
Funcionamento.
RC4.
Aplicação e segurança.
SQL Server 2014 Outras versões.
Esclarecimento em relação aos algoritmos DES.
Resumo.
Referências
Marcar
tópico

Neste tópico serão abordados os seguintes algoritmos: DES, 3DES, AES e RC4, alem de sua utilização no
SQL Server.
Data Encryption Standard (DES).
DES é tipo de cifra em bloco, ou seja, um algoritmo que toma uma string de tamanho fixo de um texto plano
e a transforma, através de uma série de complicadas operações, em um texto cifrado de mesmo tamanho. No
caso do DES, o tamanho do bloco é 64 bits. DES também usa uma chave para personalizar a transformação,
de modo que a descriptografia somente seria possível, teoricamente, por aqueles que conhecem a chave
particular utilizada para criptografar.
A chave consiste nominalmente de 64 bits, porém somente 56 deles são realmente utilizados pelo algoritmo.
Os oito bits restantes são utilizados para checar a paridade e depois são descartados, portanto o tamanho
efetivo da chave é de 56 bits, e assim é citado o tamanho de sua chave. Como outras cifras de bloco, o DES
sozinho não é um meio seguro de criptografia, deve ser utilizado em um modo de operação.
O algoritmo trabalha com 64 bits de dados a cada vez. Cada bloco de 64 bits de dados sofre de 1 a 16
iterações (16 é o padrão DES). Para cada interação um pedaço de 48 bits da chave de 56 bits entra no bloco
de encriptação representado pelo retângulo tracejado no diagrama da figura 1. A decriptação é o processo
inverso. O módulo "F" mostrado no diagrama da figura 1, é o coração do DES. Atualmente ele consiste de
diferentes transformadas e substituições não lineares.
Uma maneira de se aumentar a segurança ao utilizar o DES é usar o DES TRPLO, onde criptografa-se a
mensagem, e a chave (em geral a chave usando-se chave assimétrica), junta-se chave criptografada mais
mensagem criptografada e faz-se nova criptografia usando DES. Isto aumenta enormemente a dificuldade de
se quebrar a criptografia.
O DES foi desenvolvido há mais de 20 anos, e nestes 20 anos não apareceu nenhuma descrição de um
caminho de quebrá-lo, exceto pela força bruta.
Historicamente, as origens do DES remontam ao início da década de 1970. Em 1972, após concluir um
estudo sobre as necessidades de segurança de informação do governo norte-americano, o então NBS
(National Bureau of Standards), atualmente conhecido como NIST (National Institute of Standards and
Technology), na época o órgão de padrões do governo norte americano) identificou a necessidade de um
padrão governamental para criptografia de informações não confidenciais, porém sensíveis. Em
consequência, em 15 de Maio de 1973, após uma consulta à NSA, o NBS solicitou proposta para um
algoritmo de criptografia que atendesse a critérios rigorosos de projeto. Entretanto, nenhuma das propostas
recebidas se mostrou viável. Uma segunda solicitação foi aberta em 27 de Agosto de 1974. Desta vez, a
IBM submeteu uma proposta candidata que foi considerada aceitável: um algoritmo de criptografia
desenvolvido no período de 1973-1974 baseado num algoritmo mais antigo, o algoritmo Lucifer de Horst
Feistel. A equipe da IBM envolvida no projeto do algoritmo incluía Feistel, Walter Tuchman, Don
Coppersmith, Alan Konheim, Carl Meyer, Mike Matyas, Roy Adler, Edna Grossman, Bill Notz, Lynn
Smith, and Bryant Tuckerman.
Segurança do DES:
No DES existem 256 chaves possíveis de 56 bits (~ 7,2×1016).
Em 1993 foi feito um estudo de custo de uma máquina paralela para quebrar o DES:

Custo de máquina para quebrar o DES.

Custo unitário por máquina Tempo esperado

$100,000 35 horas

$1,000,000 3,5 horas

$10,000,000 21 minutos

Para testar o DES, foi lançado o seguinte desafio:


– Em 29 de janeiro de 1997, RSA Laboratories publicou um desafio de quebrar uma mensagem cifrada com
DES.
Em resposta, um consultor desenvolveu um programa de força bruta e o distribuiu pela Internet, 96 dias
depois a mensagem foi quebrada e mais de 70.000 máquinas foram usadas.
Figura 1 - Codificação com o DES
Fonte: Fonte: Tecnologiaderede, http://tecnologiadarede.webnode.com.br/news/noticia-aos-visitantes/

Triple Data Encryption Standard (3DES).


O 3DES(Triplo DES), sigla para Triple Data Encryption Standard é um padrão de criptografia baseado no
algoritmo de criptografia DES desenvolvido pela IBM em 1974 e adotado como padrão em 1977. O 3DES
usa 3 chaves de 64 bits (o tamanho máximo da chave é de 192 bits, embora o comprimento atual seja de 56
bits). Os dados são encriptados com a primeira chave, decriptado com a segunda chave e finalmente
encriptado novamente com a terceira chave. Isto faz do 3DES ser mais lento que o DES original, mas
oferece maior segurança. Em vez de 3 chaves, podem ser utilizadas apenas 2, fazendo-se K1 = K3.
A variante mais simples do 3DES opera da seguinte forma: DES(k3;DES(k2;DES(k1;M))), onde M é o
bloco de mensagem a ser criptografado e k1, k2 e k3 são chaves DES. O 3DES é uma simples variação do
DES, utilizando-o em três ciframentos sucessivos, podendo empregar um versão com duas ou com três
chaves diferentes. É seguro, porém muito lento para ser um algoritmo padrão.

Advanced Encryption Standard (AES).


AES é uma cifra de bloco adotada como padrão de criptografia pelo governo dos Estados Unidos. Espera-se
que seja utilizado em todo o mundo e analisada extensivamente, assim como foi seu predecessor, o Data
Encryption Standard (DES). O AES foi anunciado pelo NIST (Instituto Nacional de Padrões e Tecnologia
dos EUA) como U.S. FIPS PUB (FIPS 197) em 26 de Novembro de 2001, depois de 5 anos de um processo
de padronização. Tornou-se um padrão efetivo em 26 de Maio de 2002. Em 2006, o AES já é um dos
algoritmos mais populares usados para criptografia de chave simétrica.
O atual padrão de criptografia dos EUA se originou de um concurso lançado em 1997 pelo NIST (National
Institute of Standards and Technology). Nesse momento havia a necessidade de escolher um algoritmo mais
seguro e eficiente para substituir o DES (Data Encryption Standard), que apresentou fragilidades.
O novo algoritmo deveria atender a certos pré-requisitos como: ser divulgado publicamente e não possuir
patentes; cifrar em blocos de 128 bits usando chaves de 128, 192 e 256 bits; ser implementado tanto em
software quanto em hardware; ter maior rapidez em relação ao 3DES, uma variação recursiva do antigo
padrão DES. Em 1998, na Primeira Conferencia dos Candidatos AES, apresentaram-se 15 candidatos e, um
ano depois, na Segunda Conferencia, foram indicados 5 destes como finalistas: MARS, RC6, Rijndael,
Serpent e Twofish. Em 2000, é conhecido o vencedor: Rijndael. O algoritmo, criado pelos belgas
Vincent Rijmen e Joan Daemen, foi escolhido com base em qualidades como segurança, flexibilidade, bom
desempenho em software e hardware etc.

Funcionamento.
No AES o numero de rodadas depende do tamanho da chave, sendo Nr igual a 10, 12 e 14, para Nk igual a
4, 6 e 8, respectivamente. O algoritmo possui uma chave principal e, a partir dela, são geradas Nr + 1
chaves, geralmente chamadas de chaves de rodada, pois cada uma será usada em uma rodada diferente.
Além disso, a própria chave principal é usada antes da primeira rodada. A chave principal é alocada em uma
matriz de 4 linhas e Nk colunas, e cada chave de rodada é agrupada da mesma maneira que o bloco de
dados.
Em cada etapa, são executados substituições e transposições, conforme:
- Substituição de bytes (byte substitution);
- Permutação de bytes entre grupos (shift rows);
- Substituição usando matrizes dos grupos (mix collumns);
- Execução de um XOR com a chave (add round key);
RC4.
Em 1987 Ron Rivest desenvolveu o algoritmo RC4 para a empresa RSA Data Security, Inc., líder mundial
em algoritmos de criptografia. Foi, durante tempos, um segredo comercial muito bem guardado, muito
popular, e utilizado largamente em software, como Lotus Notes, Apple Computer’s AOCE, Oracle Secure
SQL, Internet Explorer, Netscape e Adobe Acrobat.
Sete anos depois, surge numa mailing list dedicada à criptografia (Cypherpunks) código alegadamente
equivalente ao RC4. Utilizadores com cópias legais puderam confirmar a compatibilidade. É de realçar, no
entanto, que esta não é a implementação comercial, e, como tal, é habitualmente referida como ARC4
(Alleged RC4).
As transformações neste algoritmo são lineares, não são necessários cálculos complexos, já que o sistema
funciona basicamente por permutações e somas de valores inteiros, o que torna este algoritmo muito simples
e rápido. Um raro exemplo de Barato, Rápido e Bom.
De uma forma geral, o algoritmo consiste em utilizar um array que a cada utilização tem os seus valores
permutados, e misturados com a chave, o que provoca que seja muito dependente desta. Esta chave,
utilizada na inicialização do array, pode ter até 256 bytes (2048 bits), embora o algoritmo seja mais
eficiente quando é menor, pois a perturbação aleatória induzida no array é superior.

Aplicação e segurança.
Em criptografia, RC4 (ou ARC4) é o algoritmo de criptografia de fluxo mais usado no software e utilizado
nos protocolos mais conhecidos, como Secure Socket Layers (SSL) (para proteger o tráfego Internet) e WEP
(para a segurança de redes sem fios. RC4 não é considerado um dos melhores sistemas criptográficos pelos
adeptos da criptografia, e em algumas aplicações podem converter-se em sistemas muito inseguros. No
entanto, alguns sistemas baseados em RC4 são seguros o bastante num contexto prático.
SQL Server 2014 Outras versões.
A criptografia é um dos muitos recursos de proteção que estão disponíveis para o administrador que deseja
oferecer segurança a uma instância do SQL Server.
Algoritmos de criptografia definem transformações de dados que não podem ser invertidas facilmente por
usuários não autorizados. O SQL Server permite que administradores e desenvolvedores escolham entre
diversos algoritmos, incluindo DES, Triple DES, TRIPLE_DES_3KEY, RC2, RC4, RC4 de 128 bits,
DESX, AES de 128 bits, AES de 192 bits e AES de 256 bits.
Nenhum algoritmo é ideal para todas as situações e informações sobre o benefício de cada um está além do
escopo dos Manuais Online do SQL Server. Porém, os seguintes princípios gerais se aplicam:
- A criptografia segura geralmente consome mais recursos da CPU que criptografia menos segura.
- As chaves extensas geralmente produzem uma criptografia mais segura que as chaves mais curtas.
- Codificações em bloco com chaves extensas são mais seguras que codificações em fluxo.
- Senhas longas e complexas são mais seguras que senhas curtas.
Se você estiver criptografando muitos dados, deve criptografá-los usando uma chave simétrica e
criptografar a chave simétrica com uma chave assimétrica. Dados criptografados não podem ser
compactados, mas dados compactados podem ser criptografados.Se você usar compactação, deverá
compactar os dados antes de criptografá-los.
O algoritmo RC4 tem suporte somente para compatibilidade com versões anteriores. O novo material só
pode ser criptografado por meio do algoritmo RC4 ou RC4_128 quando o banco de dados está no nível de
compatibilidade 90 ou 100 (Não recomendável.). Use um algoritmo mais recente; por exemplo, um dos
algoritmos AES.
No SQL Server 2012 e versões posteriores, o material criptografado por meio do algoritmo RC4 ou
RC4_128 pode ser descriptografado em qualquer nível de compatibilidade.
O uso repetido do mesmo RC4 ou RC4_128 KEY_GUID em blocos de dados diferentes resulta na mesma
chave RC4 porque o SQL Server não fornece um salto automaticamente. O uso da mesma chave RC4
repetidamente é um erro bem conhecido que resulta em criptografia muito fraca.
Portanto, preterimos as palavras-chave RC4 e RC4_128. Esse recurso será removido em uma versão futura
do Microsoft SQL Server. Não utilize esse recurso em desenvolvimentos novos e modifique, assim que
possível, os aplicativos que atualmente o utilizam.

Esclarecimento em relação aos algoritmos DES.


O DESX foi nomeado incorretamente. As chaves simétricas criadas com ALGORITHM = DESX na verdade
usam a cifra TRIPLE DES com uma chave de 192 bits.
O algoritmo DESX não é fornecido. Esse recurso será removido em uma versão futura do Microsoft SQL
Server. Evite usar esse recurso em desenvolvimentos novos e planeje modificar os aplicativos que
atualmente o utilizam.
- As chaves simétricas criadas com ALGORITHM = TRIPLE_DES_3KEY usam TRIPLE DES com uma
chave de 192 bits.
- As chaves simétricas criadas com ALGORITHM = TRIPLE_DES usam TRIPLE DES com uma chave de
128 bits.
https://msdn.microsoft.com/pt-br/library/ms345262(v=sql.120).aspx
Resumo.
Neste tópiconós vimos a cifra em bloco DES, que é o algoritmo que toma uma string de tamanho fixo de um
texto plano e a transforma em um texto cifrado, vimos também o 3DES, que é o triplo DES, ou seja, sigla
para Triple Data Encryption Standard. Neste tópico também, foi visto o AES que é uma cifra de bloco
adotada como padrão de criptografia pelo governo dos Estados Unidos, além do RC4 que é um algoritmo
desenvolvido por Ron Rivest para a empresa RSA Data Security, Inc., além da utilização da criptografia no
SQL Server.

Funções criptográficas
Este tópico tem como objetivo descrever a história da criptografia e também suas principais funções para
"esconder" a mensagem.

NESTE TÓPICO

NESTE TÓPICO

Um pouco de história.
Hash.
Aplicações práticas do hash.
Integridade de arquivos.
Segurança de senhas.
Assinaturas digitais.
Resistência a colisões.
Resistência de pré-imagem.
Resistência de segunda pré-imagem.
A segurança das funções hash.
Ataque randômico.
Ataque do aniversário.
As funções hash mais conhecidas.
Resumo.
Referências
Marcar
tópico
Neste tópico serão abordados alguns aspectos históricos relativos criptografia, bem como conceitos de hash,
integridade de arquivos, segurança de senhas, assinatura digital e resistência a colisões.
Um pouco de história.
Historicamente, a codificação era utilizada na troca de mensagens, sobretudo em assuntos ligados à
guerra (no intuito do inimigo não descobrir a estratégia do emissor da mensagem, caso se apoderasse dela),
à diplomacia (para que facções rivais não estragassem os planos de acordos diplomáticos entre nações). O
primeiro uso documentado da criptografia foi em torno de 1900 a.c., no Egito, quando um escriba usou
hieróglifos fora do padrão numa inscrição.
Entre 600 a.c. e 500 a.c., os hebreus utilizavam a cifra de substituição simples (de fácil reversão e fazendo
uso de cifragem dupla para obter o texto original), sendo monoalfabético e monogrâmica (os caracteres são
trocados um a um por outros), e com ela escreveram o Livro de Jeremias.
O chamado "Codificador de Júlio César" ou "Cifra de César" que apresentava uma das técnicas mais
clássicas de criptografia, é um exemplo de substituição que, simplesmente, troca as letras do alfabeto
avançando três casas. O autor da cifragem trocava cada letra por outra situada a três posições à frente no
alfabeto. Segundo o autor, esse algoritmo foi responsável por enganar muitos inimigos do Império Romano;
no entanto, após ter sido descoberta a chave, perdeu sua funcionalidade.
Destacam-se os estudos de Blaise de Vigenère que constituíram um método muito interessante; é a cifra de
Vigenère que utiliza a substituição de letras. Tal processo consiste na sequência de várias cifras (como as de
César) com diferentes valores de deslocamento alfanumérico. A partir desse período, Renascença, a
criptologia começou a ser seriamente estudada no Ocidente e, assim, diversas técnicas foram utilizadas e os
antigos códigos monoalfabéticos foram, aos poucos, sendo substituídos por polialfabéticos.
Dos anos 700 a 1200, são relatados incríveis estudos estatísticos, em que se destacam expoentes como al-
Khalil, al-Kindi, Ibn Dunainir e Ibn Adlan e que marcaram sua época. Na Idade Média, a civilização árabe-
islâmica contribuiu muito para os processos criptográficos, sobretudo quanto à criptoanálise (análise da
codificação, a procura de padrões que identificassem mensagens camufladas por códigos).
Na Idade Moderna, merecem destaque o holandês Kerckhoff e o alemão Kasiski. Modernamente, em 1918,
Arthur Scherbius desenvolveu uma máquina de criptografia chamada Enigma, utilizada amplamente pela
marinha de guerra alemã em 1926, como a principal forma de comunicação.
Em 1928, o exército alemão construiu uma versão conhecida como "Enigma G", que tinha como garantidor
de segurança a troca periódica mensal de suas chaves. Essa máquina tinha como diferencial ser elétrico-
mecânica, funcionando com três (inicialmente) a oito rotores. Aparentava ser uma máquina de escrever, mas
quando o usuário pressionava uma tecla, o rotor da esquerda avançava uma posição, provocando a rotação
dos demais rotores à direita, sendo que esse movimento dos rotores gerava diferentes combinações de
encriptação.
Assim, a codificação da mensagem pelas máquinas "Enigma" era de muito difícil decodificação, uma vez
que, para isso, era necessário ter outra máquina dessas e saber qual a chave (esquema) utilizada para realizar
a codificação.
A Colossus surgiu do esforço de engenharia reversa das forças aliadas em decriptar as mensagens da
marinha e do exército alemão, só logrando efetivo êxito após se ter conseguido uma máquina Enigma alemã
(furtada). Tais equipamentos foram, inicialmente, desenvolvidos como máquinas de decriptação, mas depois
passaram a codificar mensagens das forças aliadas.
Durante a chamada "Guerra Fria", entre Estados Unidos e União Soviética, foram criados e utilizados
diversos métodos a fim de esconder mensagens a respeito de estratégias e operações, criptografadas com
diferentes métodos e chaves.
Diffie e Hellman revolucionaram os sistemas de criptografia existentes até 1976, a partir do
desenvolvimento de um sistema de criptografia de chave púiblica que foi aperfeiçoado por pesquisadores do
MIT e deu origem ao algoritmo RSA.
Além dos avanços da criptografia, a criptoanálise se desenvolveu muito com os esforços de se descobrir
padrões e chaves, além da diversidade dos canais de propagação das mensagens criptografadas. Desses
esforços, surgiram diversos tipos de criptografia, tais como por chave simétrica, por chave assimétrica, por
hash e até a chamada criptografia quântica, que se encontra, hoje, em desenvolvimento.
Durante muito tempo, o termo referiu-se exclusivamente à cifragem, o processo de converter uma
informação comum (texto claro) em algo não inteligível; o qual chama-se texto cifrado. A decifragem é a
tarefa contrária, dado uma informação não inteligível convertê-la em texto claro.
Nos dias atuais, onde grande parte dos dados é digital, sendo representados por bits, o processo de
criptografia é basicamente feito por algoritmos que fazem o embaralhamento dos bits desses dados a partir
de uma determinada chave ou par de chaves, dependendo do sistema criptográfico escolhido. Atualmente, a
criptografia é amplamente utilizada na WEB, em segurança a fim de autenticar os usuários para lhes
fornecer acesso, na proteção de transações financeiras e em redes de comunicação.
Figura 1 - Máquina Enigma. Fonte Wikipedia - criptografia
Fonte: Fonte Wikipedia - criptografia, https://pt.wikipedia.org/wiki/Criptografia#Bibliografia

Hash.
Um hash, também chamado de "digesto", é uma espécie de "assinatura" ou "impressão digital" que
representa o conteúdo de um fluxo de dados. Com certa frequência os hashes são chamados de checksum, o
que provoca alguma confusão com os verdadeiros checksums, os quais têm aplicações e cálculos totalmente
diferentes. Um hash pode ser comparado com um selo de embalagem que indica clara e inequivocamente se
a embalagem já foi aberta ou violada.
Hashes não são cifragens, são digestos. As cifragens transformam os dados do texto claro num criptograma
e vice-versa, ou seja, é uma operação de duas mãos. Além disso, o tamanho do criptograma geralmente é
igual ao comprimento do texto claro. Hashes, por sua vez, transformam os dados do texto (claro ou cifrado)
num pequeno digesto, de tamanho fixo, numa operação de mão única. Uma operação de mão única não tem
volta, ou seja, não é possível obter o texto claro a partir de um resultado hash.
Os hashes produzem "selos de segurança" de comprimento fixo, não importa o comprimento do fluxo de
dados ou do arquivo que representem. Qualquer alteração efetuada no arquivo, por mínima que seja, altera
substancialmente o resultado hash. Isto ocorre porque, mesmo se apenas um dos bits do arquivo for
alterado, muitos bits do resultado serão afetados. Este comportamento é conhecido como "efeito avalanche".
O efeito avalanche fica bastante claro quando observamos o impacto da mudança de apenas um bit no
resultado hash. Para exemplificar, vamos usar os caracteres ASCII "A" e "a". Note que apenas o sexto bit
(contando da direita para a esquerda e iniciando pelo bit zero) é diferente:

Conversão ASCII decimal vs ASCII binário

Caracter ASCII (decimal) ASCII (binário)

A 65 0100 0001

a 97 0110 0001

Aplicações práticas do hash.


Se os dados originais não podem ser recuperados a partir do hash gerado pelos mesmos, então para que
servem os hashes? Apesar de parecer contraditório, é exatamente esta característica que possibilita o uso de
algoritmos hash sempre que uma autenticação ou uma validação seja necessária. Dentre as inúmeras
aplicações destacam-se as seguintes:
Integridade de arquivos.
Qualquer tipo de arquivo, por exemplo um arquivo de texto ou um programa de computador, é um fluxo de
dados que produz um resultado hash único. Quando um arquivo é disponibilizado para download, não existe
a garantia de que o arquivo baixado seja idêntico ao original. Basta que ocorra um pequeno problema
durante a transmissão que altere os dados recebidos para que a "cópia" não seja perfeita. Uma das maneiras
de poder verificar se o arquivo baixado é idêntico ao disponibilizado é conhecer o hash do arquivo original.
Após o download é possível calcular o hash do arquivo baixado e, se os dois hashes forem idênticos, a
integridade da cópia é comprovada. É importante lembrar que hashes parecidos ou "quase iguais" indicam
sempre que os dados que os produziram são diferentes, e nunca parecidos ou quase iguais.
Segurança de senhas.
Guardar senhas em texto claro é dar chance para o azar. Se um arquivo de senhas for roubado ou um banco
de dados com registros de senhas for hackeado, o estrago pode ser enorme. Como um hash não é reversível
e, para serem usadas, as senhas precisam ser conferidas, é muito mais prudente armazenar os resultados
hash das senhas do que as próprias senhas. O uso de uma senha pressupõe que um usuário a digite. Tendo a
senha como entrada, é fácil e rápido calcular o resultado hash da senha fornecida e compará-lo com o valor
arquivado. Se forem idênticos, a senha confere, mostrando que o usuário conhecia uma senha válida. Este
procedimento reduz sensivelmente os riscos porque o único momento em que a senha pode ser roubada é
enquanto está sendo digitada e antes de ser transformada em hash.
Assinaturas digitais.
Para se obter uma assinatura digital válida são necessárias duas etapas. A primeira é criar um hash do
documento. Este hash identifica unicamente e inequivocamente o documento do qual ele se originou. A
seguir, o assinante submete o hash a um método criptográfico usando sua chave privada. Como o hash
criptografado só pode ser recuperado usando a chave pública do assinante, isto comprova a identidade da
pessoa que assinou - é a chamada assinatura digital - e como o hash recuperado identifica o documento, a
assinatura está associada unicamente a este documento.
Resistência a colisões.
A resistência a colisões mede a dificuldade de encontrar duas entradas que produzam o mesmo resultado
hash. O valor hash pode ser qualquer um, o objetivo é encontrar duas entradas diferentes que forneçam um
resultado idêntico.
Se for possível obter o mesmo resultado hash para duas entradas diferentes, as assinaturas digitais deixam
de ser confiáveis. Imagine um "compromisso de compra" que possa ser substituído por outro sem que o
valor hash se modifique. Se os documentos forem trocados por alguém com más intenções poderemos ter
surpresas bastante desagradáveis.
Colisão: procura de dois textos que produzam um mesmo hash qualquer.
Neste caso, a assinatura digital também não pode garantir a autenticidade do documento. Pior do que isto, a
assinatura digital coloca nossa anuência no documento! Como já foi visto, a alteração de um simples bit
costuma alterar substancialmente o resultado hash. Vai aqui uma sugestão: antes de colocar a sua assinatura
digital, faça uma pequena alteração "cosmética" no documento que será assinado.
Resistência de pré-imagem.
A resistência de pré-imagem mede a dificuldade de criar um conjunto de dados que resulte num
determinado valor hash, sem conhecer o texto que o originou.
Pré-imagem: criação de determinado valor hash sem conhecer o texto original.
Se a resistência de pré-imagem for pequena, será mais fácil criar um texto qualquer cujo hash seja igual a
um conhecido. Imagine o caso das senhas. Se, conhecendo o valor hash de uma delas, for possível criar uma
senha qualquer que resulte num hash idêntico, a segurança de um sistema que faça a autenticação
exclusivamente com hashes de senhas estará seriamente comprometido. Mesmo digitando a senha
"fabricada", o resultado será aceito.
Resistência de segunda pré-imagem.
A resistência de segunda pré-imagem mede a dificuldade de criar um conjunto de dados que resulte num
determinado valor hash, conhecendo o texto que o originou.
Segunda pré-imagem: criação de determinado valor hash conhecendo o texto original.
Assim como a resistência de pré-imagem, se a resistência de segunda pré-imagem for baixa, a criação de um
conjunto de dados que resulte num hash conhecido torna-se mais fácil. É comum encontrarmos software
para download acompanhado de seus valores hash, portanto, é fácil obter a matéria prima que pode ser
fraudada. Se alguém com más intenções alterar o software, mas conseguir preservar seu resultado hash, os
usuários que fizerem o download do "software corrompido" não terão como identificar o software
adulterado e potencialmente perigoso.
A segurança das funções hash.
Em termos práticos, a segurança das funções criptográficas hash pode ser medida apenas em relação à sua
resistência a ataques. Normalmente os adversários procuram uma pré-imagem, segunda pré-imagem ou
colisão em funções hash ou produzem dados forjados para um MAC.
Ataque randômico.
Este é o tipo de ataque mais óbvio. O adversário simplesmente seleciona uma entrada ao acaso e espera pelo
resultado hash. Dado o hash de uma mensagem h(M), o adversário tenta criar um outro documento, M', de
modo que h(M) = h(M'). Se a função hash possuir um comportamento 'randômico', sua probabilidade de
sucesso é considerável (cerca de 50%). Na prática, o ataque pode ser efetuado em paralelo, usando a
computação distribuída num grande número de máquinas com uma chance não desprezível de se obter uma
pré-imagem ou uma segunda pré-imagem.
Ataque do aniversário.
Este ataque se baseia na ideia de que num grupo de 23 pessoas a probabilidade de que, pelo menos, duas
pessoas façam aniversário no mesmo dia é maior do que 50%. Intuitivamente, a impressão geral é que o
grupo de pessoas deveria ser muito maior para que isto acontecesse, motivo pelo qual esta constatação é
chamada de paradoxo do aniversário.
Este tipo de ataque é mais sutil do que o anterior e baseia-se num problema padrão da estatística. Quantas
pessoas precisam estar numa sala para que a chance de uma delas fazer aniversário no mesmo dia que você
seja maior do que 50%? A resposta é 253. Agora, se a pergunta for "Quantas pessoas precisam estar numa
sala para que a chance de duas delas comemorarem aniversário no mesmo dia seja maior do que 50%?", o
resultado é surpreendente baixo. Com apenas 23 pessoas na sala, a chance de que duas façam aniversário no
mesmo dia é maior do que 50%. É que, apesar do número baixo de pessoas, existem mais de
500 pares diferentes de pessoas na sala.
Achar alguém com um aniversário específico é análogo ao primeiro ataque; achar duas pessoas com o
mesmo aniversário randômico é análogo a este segundo ataque, também conhecido como ataque do
aniversário .
Imagine que determinada função hash siga todas as propriedades citadas acima e que a melhor forma de
atacá-la seja através da força bruta. Se esta função criar um resultado hash de mbits, encontrar uma
mensagem que resulte no hash procurado requer 2 m mensagens randômicas. Agora, encontrar duas
mensagens que produzam o mesmo hash requer apenas 2 m/2 mensagens randômicas. Um computador que seja
capaz de processar um milhão de mensagens por segundo levaria 600.000 anos para encontrar uma segunda
mensagem para determinado hash de 64 bits. A mesma máquina pode achar um par de mensagens que
resultam num hash de 64 bits igual em cerca de uma hora!
Resta saber como um ataque do aniversário pode ser usado para fins escusos. Imagine que um safado
prepare dois contratos, um favorável para o bonzinho e outro no qual o bonzinho transfere todos os seus
bens para o safado. De posse destes dois documentos, o safado faz várias pequenas alterações nos dois
documentos: troca espaço por espaço-backspace-espaço, insere um ou dois espaços antes das quebras de
linha, etc. Introduzindo (ou não) estas pequenas alterações em cada uma de 32 linhas de texto, o mal
intencionado consegue gerar 2 32 documentos diferentes. Depois disto, ele compara os hashes dos documentos
até encontrar um par, tarefa perfeitamente possível de ser realizada se o resultado hash tiver apenas 64 bits.
Encontrando estes dois documentos, um do contrato bom e outro do contrato alterado, o elemento mal
intencionado pede para a vitima assinar o documento bom usando um protocolo no qual ele apenas assina o
valor hash. Quando lhe convier, o mal intencionado troca os contratos e não há mais como provar que não
seja o documento original assinado pela vitima.
Este cenário não tem nada de surreal, é perfeitamente possível de ocorrer. E tudo por conta do ataque do
aniversário aplicado a funções hash de 64 bits. Por este motivo, a maioria das funções produzem hashes de
pelo menos 128 bits. Isto força qualquer atacante a utilizar, no mínimo, 2 64 documentos randômicos para
encontrar dois cujos hashes tenham o mesmo valor. Mas como é possível obter hashes com mais de 64 bits?
Dentre os métodos propostos, o seguinte é bastante eficiente:

1. Gerar o valor hash de uma mensagem, usando uma função hash de mão única.

2. Concatenar a mensagem e o hash obtido.

3. Gerar um novo hash da mensagem com o hash concatenado.

4. Criar um valor hash maior que consiste da valor hash gerado na etapa 1 concatenado ao
hash gerado na etapa 3.

5. Repetir as etapas 1 a 3 o quanto se desejar.

As funções hash mais conhecidas.


 SNEFRU é uma função hash de mão única desenvolvida por Ralph Merkle que cria
resultados hash de 128 ou de 256 bits.

 N-HASH é um algoritmo inventado por pesquisadores da Nippon Telephone and


Telegraph, os mesmos que inventaram o FEAL. Usa blocos de 128 bits de mensagem e
produz um resultado hash também de 128 bits.

 MD4, onde MD vem de message digest, é uma função hash de mão única desenvolvida
por Ron Rivest que também produz um valor hash de 128 bits.

 MD5 é uma versão melhorada do MD4. Também de Ron Rivest, produz um resultado
hash de 128 bits.

 SHA, o Secure Hash Algorithm, foi desencolvido pelo NIST e pela NSA. Produz um
hash de 160 bits, também chamado de message digest.

 RIPE-MD foi desenvolvido para o projeto RACE da Comunidade Européia. Seu


algoritmo é uma variação do MD4.

 HAVAL é uma função hash de mão única de tamanho variável inventada por Yulian
Zheng, Josef Pieprzyk e Jennifer Seberry. É uma modificação do MD5.
Certificação e assinatura digital
Neste tópico serão mostrados os aspectos que envolvem assinatura digital e emissão de certificação digital.

NESTE TÓPICO

NESTE TÓPICO

Assinatura digital.
Certificado digital.
Resumo.
Referências
Marcar
tópico

Este tópico contém as explicações sobre a assinatura digitais como forma de autenticação de mensagens.
Nele também são apresentados aspectos de transmissão de mensagens assinadas (hash) e com o controle de
certificado digital, o qual envolve uma Autoridade Certificadora.
Assinatura digital.
A assinatura digital permite comprovar a autenticidade e a integridade de uma informação, ou seja, que ela
foi realmente gerada por quem diz ter feito isto e que ela não foi alterada.
A assinatura digital baseia-se no fato de que apenas o dono conhece a chave privada e que, se ela foi usada
para codificar uma informação, então apenas seu dono poderia ter feito isto. A verificação da assinatura é
feita com o uso da chave pública, pois se o texto foi codificado com a chave privada, somente a chave
pública correspondente pode decodificá-lo.
Para contornar a baixa eficiência característica da criptografia de chaves assimétricas, a codificação é feita
sobre o hash e não sobre o conteúdo em si, pois é mais rápido codificar o hash, que possui tamanho fixo e
reduzido, do que a informação toda.
Considerar que o hash é gerado de tal forma que não é possível realizar o processamento inverso para se
obter a informação original e que qualquer alteração na informação original produzirá um hash distinto.
Apesar de ser teoricamente possível que informações diferentes gerem hashes iguais, a probabilidade disto
ocorrer é bastante baixa.
Certificado digital.
Como dito anteriormente, a chave púbica pode ser livremente divulgada. Entretanto, se não houver como
comprovar a quem ela pertence, pode ocorrer uma comunicação, de forma cifrada, diretamente com um
impostor.
Um impostor pode criar uma chave pública falsa para um amigo seu e enviá-la para uma outra pessoa ou
disponibilizá-la em um repositório. Ao usá-la para codificar uma informação para algém conhecido, a
pessoa estará, na verdade, codificando-a para o impostor, que possui a chave privada correspondente e
conseguirá decodificar. Uma das formas de impedir que isto ocorra é pelo uso de certificados digitais.
O certificado digital é um registro eletrônico composto por um conjunto de dados que distingue uma
entidade e associa a ela uma chave pública. Ele pode ser emitido para pessoas, empresas, equipamentos ou
serviços na rede (por exemplo, um site Web) e pode ser homologado para diferentes usos, como
confidencialidade e assinatura digital.
Um certificado digital pode ser comparado a um documento de identidade, por exemplo, o seu passaporte,
no qual constam os seus dados pessoais e a identificação de quem o emitiu. No caso do passaporte, a
entidade responsável pela emissão e pela veracidade dos dados é a Polícia Federal. No caso do certificado
digital esta entidade é uma Autoridade Certificadora (AC).
Uma AC emissora é também responsável por publicar informações sobre certificados que não são mais
confiáveis. Sempre que a AC descobre ou é informada que um certificado não é mais confiável, ela o inclui
em uma “lista negra”, chamada de “Lista de Certificados Revogados” (LCR) para que os usuários possam
tomar conhecimento. A LCR é um arquivo eletrônico publicado periodicamente pela AC, contendo o
número de série dos certificados que não são mais válidos e a data de revogação.
A Figura 1 ilustra como os certificados digitais são apresentados nos navegadores Web.
Figura 1 - os exemplos de certificados digitais.
Fonte: http://flexdocs.com.br/FAQ/images/ValCert5.png

Note que, embora os campos apresentados sejam padronizados, a representação gráfica pode variar
entre diferentes navegadores e sistemas operacionais. De forma geral, os dados básicos que compõem
um certificado digital são:

 versão e número de série do certificado;

 dados que identificam a AC que emitiu o certificado;

 dados que identificam o dono do certificado (para quem ele foi emitido);

 chave pública do dono do certificado;

 validade do certificado (quando foi emitido e até quando é válido);

 assinatura digital da AC emissora e dados para verificação da assinatura.

O certificado digital de uma AC é emitido, geralmente, por outra AC, estabelecendo uma
hierarquia conhecida como “cadeia de certificados” ou “caminho de certificação”, conforme ilustrado
na Figura 2.
A AC raiz, primeira autoridade da cadeia, é a âncora de confiança para toda a hierarquia e, por não existir
outra AC acima dela, possui um certificado autoassinado (maiores detalhes serão apresentados a seguir).
Os certificados das ACs raízes publicamente reconhecidas já vêm inclusos, por padrão, em grande parte dos
sistemas operacionais e navegadores e são atualizados juntamente com os próprios sistemas.
Alguns exemplos de atualizaçãoes realizadas na base de certificados dos navegadores são: inclusão de novas
ACs, renovação de certificados vencidos e exclusão de ACs não mais confíaveis.

Figura 2 - cadeia de certificados digitais


Fonte: http://publib.boulder.ibm.com/tividd/td/TRM/GC32-1323-00/pt_BR/HTML/trustchn.gif

Alguns tipos especiais de certificado digital que podem ser encontrados são:
Certificado autoassinado: é aquele no qual o dono e o emissor são a mesma entidade. Costuma ser usado de
duas formas:
Legítima: além das ACs raízes, certificados autoassinados também costumam ser usados por instituições de
ensino e pequenos grupos que querem prover confidencialidade e integridade nas conexões, mas que não
desejam, ou não podem, arcar com o ônus de adquirir um certificado digital validado por uma AC
comercial.
Maliciosa: um atacante pode criar um certificado autoassinado e utilizar, por exemplo, mensagens de
phishing, para induzir os usuários a instalá-lo. A partir do momento em que o certificado for instalado no
navegador, passa a ser possível estabelecer conexões cifradas com sites fraudulentos, sem que o navegador
emita alertas quanto à confiabilidade do certificado.
Certificado EV SSL (Extended Validation Secure Socket Layer): certificado emitido sob um processo mais
rigoroso de validação do solicitante. Inclui a verificalção de que a empresa foi legalmente registrada,
encontra-se ativa e que detém o registro do domínio para o qual o certificado será emitido, além de dados
adicionais, como o endereço físico.
Resumo.
Neste tópico foram mostradas as explicações sobre a assinatura digital e emissão de certificação
digital como forma de autenticação de mensagens. Nele também foram apresentados aspéctos de
transmissão de mensagens assinadas (hash) e com o controle de certificado digital, o qual envolve uma
Autoridade Certificadora.

Certificados digitais padrão X.509 V3


Neste tópico foram abordados serviços de autenticação da série de recomendações X.500, os quais definem
serviço de diretório que, na verdade, é um servidor ou conjunto de servidores distribuídos que mantém um
banco de dados de informações de usuários.

NESTE TÓPICO

NESTE TÓPICO

Padrão X.509.
CERTIFICADOS.
OBTENDO O CERTIFICADO DE UM USUÁRIO.
Revogação de certificados.
Procedimentos de autenticação.
Autenticação de uma via.
Autenticação de duas vias.
Autenticação de três vias.
X.509 versão 3.
INFRA-ESTRUTURA DE CHAVE PÚBLICA.
Referências
Marcar
tópico

Este tópico concentra-se nas explicações sobre os serviços de autenticação e na série de recomendações
X.500, os quais definem serviços de diretório, o qual na verdade, é um servidor ou conjunto de servidores
distribuídos que mantém um banco de dados de informações de usuários.
Padrão X.509.
O X.509 define uma estrutura para provisão de serviços de autenticação pelo diretório X.500 aos seus
usuários. o diretório pode servir como um repositório de certificados de chave pública. Cada certificado
contém uma chave pública de um usuário e é assinado com a chave privada de uma autoridade de
certificação confiável.
O X.509 é um padrão importante porque a estrutura de certificado e os protocolos de autenticação definidos
no X.509 são usados em vários contextos. Por exemplo, o formato de certificados X.509 é usado em
S/MIME, IP Security e SSL/TLS e SET.
O X.509 é baseado no uso de criptografia de chave pública e assinaturas digitais. O padrão não dita o uso de
um algoritmo específico, mas recomenda o RSA. Presume-se que o esquema de assinatura digital exija o
uso de uma função hash. Novamente, o padrão não dita o algoritmo hash específico. A recomendação de
1988 incluía a descrição de um algoritmo hash recomendado; esse algoritmo desde então provou ser
inseguro e foi retirado da recomendação de 1993.
Uso do certificado de chave pública (Stallings, pag 303).
Fonte: William Stallings - Criptografia e segurança de redes, 4ª Ed. Pearson Education

CERTIFICADOS.
O núcleo do esquema X.509 é o certificado de chave pública associado a cada usuário. Esses certificados de
usuários são considerados como sendo criados por alguma entidade certificadora (CA) confiável e
colocados no diretório pela CA ou pelo usuário. O próprio servidor de diretório não é responsável pela
criação das chaves públicas ou pela função de certificação. Ele simplesmente oferece um local de fácil
acesso para os usuários obterem certificados. Na figura acima é mostrado o formato geral de um certificado,
que inclui os seguintes elementos:
 Versão: Diferencia entre versões sucessivas do formato do certificado, o padrão é versão
1. Se o identificador Exclusivo do Emissor ou o Identificador Exclusivo do Titular
estiverem presentes, o valor precisa ser versão 2. Se uma ou mais extensões estiverem
presentes, a versão precisa ser versão 3.
 Número de série: Um valor inteiro, exclusivo dentro da CA emitente, que é associado
sem ambiguidades a esse certificado.
 Identificador do algoritmo de assinatura: O algoritmo usado para assinar o certificado,
juntamente com quaisquer parâmetros associados. Como essa informação é repetida no
campo Assinatura, ao final do certificado o campo tem pouca ou nenhuma utilidade.
 Nome do emissor: O nome X.500 da CA que criou e assinou o certificado.
 Período de validade: Consiste em duas datas: a primeira e a última em que o certificado é
válido.
 Nome do titular: O nome do usuário a quem o certificado se refere, ou seja, o certificado
certifica a chave pública do titular que mantém a chave privada correspondente.
 Informação de chave pública do titular: A chave pública do titular, mais um identificador
do algoritmo para o qual a chave deve ser usada, juntamente com quaisquer parâmetros
associados.
 Identificador exclusivo do emissor: Um campo de sequencia de bits opcional usado para
identificar exclusivamente a CA emissora, caso o nome X.500 tenha sido reutilizado para
entidades diferentes.
 Identificador exclusivo do titular: Um campo de sequencia de bits opcional usado para
identificar exclusivamente o titular caso o nome X.500 tenha sido reutilizado para
diferentes entidades.
 Extensão: Um conjunto de um ou mais campos de extensão. As extensões foram
adicionadas na versão 3.
 Assinatura: Abrange todos os outros campos do certificado, ela contem o código hash
dos outros campos criptografados com a chave privada da CA. Este campo inclui o
identificador do algoritmo de assinatura.
Os campos de identificadores exclusivos foram adicionados na versão 2 para lidar com a possível
reutilização dos nomes de titular e/ou emissor. Com o passar do tempo esses campos raramente são usados.
Formatos X.500 ( Stallings pag 304).
Fonte: William Stallings - Criptografia e segurança de redes, 4ª Ed. Pearson Education

OBTENDO O CERTIFICADO DE UM USUÁRIO.


Os certificados do usuário gerados por uma CA têm as seguintes características:
- Qualquer usuário com acesso à chave pública da CA pode verificar a chave pública do usuário que foi
certificada.
- Nenhuma parte além da autoridade certificadora pode modificar o certificado sem que isso seja detectado.
Como os certificados não podem ser falsificados, eles podem ser colocados em um diretório sem a
necessidade de esforços especiais para protegê-los.
Se todos os usuários assinarem a mesma CA, então haverá uma confiança comum nessa CA. Todos os
certificados do usuário podem ser colocados no diretório para que sejam acessados por todos os usuários.
Além disso um usuário pode transmitir seu certificado diretamente a outros usuários. De qualquer maneira,
quando B está de posse do certificado de A, B pode confiar que as mensagens que ele criptografa com a
chave pública de A serão protegidas contra espionagem e que as mensagens assinadas com a chave privada
de A não serão falsificadas.
Se houver uma grande comunidade de usuários, pode não ser prático que todos os usuários se inscrevam na
mesma CA. Como é a CA que assina os certificados, cada usuário praticamente precisa ter uma cópia da
própria chave pública da CA para verificar assinaturas. Essa chave pública precisa ser fornecida a cada
usuário de uma maneira absolutamente segura ( com relação à integridade e autenticidade), de modo que o
usuário tenha confiança nos certificados associados. Assim, com muitos usuários, pode ser mais prático que
haja diversas CAs, cada qual oferecendo seguramente sua chave pública a uma parte dos usuários.
Agora suponha que A tenha obtido um certificado de autoridade certificadora X 1 e B tenha obtido um
certificado da CA X 2. Se A não conhece com segurança a chave pública de X 2, então o certificado de B,
emitido por X 2, é inútil para A. A pode ler o certificado de B, mas A não pode verificar a assinatura. Porém,
se as duas CAs tiverem trocado seguramente suas próprias chaves públicas, o procedimento a seguir
permitirá que A obtenha a chave pública de B:
1. Obtém, pelo diretório, o certificado de X 2 assinado por X 1. Como A conhece com segurança a chave
pública de X 1, A pode obter a chave pública de X 2 a partir do certificado dele e verificá-la por meio da
assinatura de X 1 no certificado.
2. A, então, volta para o diretório e obtém o certificado de B assinado por X 2. Como A agora tem uma cópia
confiável da chave pública de X 2, A pode verificar a assinatura e obter a chave pública de B com segurança.

Revogação de certificados.
Lembrando que cada certificado inclui um período de validade muito semelhante a um cartão de crédito,
normalmente um novo certificado é emitido imediatamente antes da expiração do antigo. Além disso, pode-
se desejar, na ocasião, revogar um certificado antes que ele expire, por um dos seguintes motivos:
1. A chave privada do usuário foi considerada comprometida.
2. O uso não é mais certificado pela CA.
3. O certificado da CA foi considerado comprometido.
Cada CA precisa manter uma lista consistindo em todos os certificados revogados, porém não expirados,
emitida por ela, incluindo aqueles emitidos aos usuários e a outras CAs. Essa lista também deve ser postada
no diretório.
Cada lista de revogação (CRL) postada no diretório é assinada pelo emissor e inclui o nome do emissor, a
data em que a lista foi criada, a data em que a próxima CRL está agendada para ser emitida e uma entrada
para cada certificado revogado. Cada entrada consiste no número de série de um certificado e a data de
revogação para este certificado revogado. Como os números de série são exclusivos dentro de uma CA, o
número de série é suficiente para identificar o certificado.
Quando um usuário recebe um certificado em uma mensagem, o usuário precisa determinar se o certificado
foi revogado. O usuário pode verificar o diretório toda vez que um certificado for recebido. Para evitar
atrasos (e possíveis custos) associados às buscas de diretório, é recomendável que o usuário mantenha um
cache local de certificados e listas de certificados revogados.
Procedimentos de autenticação.
O X.509 inclui três procedimentos de autenticação alternativos para serem usados por diversas aplicações.
Todos esses procedimentos utilizam assinaturas de chave pública. Considera-se que as duas partes
conhecem a chave pública uma da outra, seja obtendo os certificados umas das outras pelo diretório ou
porque o certificado está incluído na mensagem inicial de cada lado.
A figura a seguir ilustra os três procedimentos.
Procedimentos de autenticação forte X.509.
Fonte: William Stallings - Criptografia e segurança de redes, 4ª Ed. Pearson Education

Autenticação de uma via.


A autenticação de uma via envolve uma única transferência de informações de um usuário (A) para outro
(B), e estabelece o seguinte:
1. A identidade de A e que a mensagem foi gerada por A.
2. Que a mensagem foi destinada a B.
3. A integridade e a originalidade ( ela não foi enviada várias vezes) da mensagem.
Observe que somente a identidade da entidade que inicia é verificada nesse processo, e não o da entidade
que responde.
No mínimo, a mensagem inclui um carimbo de tempo tA, um nonce rA ,e a identidade de B, e é assinada com a
chave privada de A. O carimbo de tempo consiste em uma hora de geração (opcional) e em uma hora de
expiração. Isso impede a entrega adiada de mensagens. O nonce pode ser usado para detectar ataques por
repetição. O valor do nonce precisa ser exclusivo dentro do período de expiração da mensagem. Assim, B
pode armazenar o nonce até que expire e rejeitar quaisquer novas mensagens com o mesmo nonce.
Por pura autenticação, a mensagem é usada simplesmente para apresentar credenciais para B. A mensagem
também pode incluir informações a serem transportadas. Essas informações sgnData, estão incluídas dentro
do escopo da assinatura, garantindo sua autenticidade e integridade. A mensagem também pode ser usada
para transportar uma chave de sessão para B, criptografada com a chave pública de B.
Autenticação de duas vias.
Além dos três elementos que acabamos de listar, a autenticação de duas vias estabelece os seguintes
elementos:
4. A identidade de B e que a mensagem de resposta foi gerada por B.
5. Que a mensagem foi destinada a A.
6. A integridade e a origem da resposta.
A autenticação de duas vias, assim, permite que ambas as partes de uma comunicação verifiquem a
identidade uma da outra.
A mensagem de resposta inclui o nonce de A, para validar as respostas. Ela também inclui um carimbo de
tempo e o nonce gerado por B. Como antes, a mensagem pode incluir informações adicionais assinadas e
uma chave de sessão criptográfica com a chave pública de A.
Autenticação de três vias.
Na autenticação de três vias, uma mensagem final de A para B é incluída, contendo uma cópia assinada do
nonce rB. A intenção desse projeto é que as marcas de data/hora não tenham de ser verificadas: como os dois
nonces são repetidos de volta pelo outro lado, cada lado pode verificar o nonce retornado para detectar
ataques por repetição. Essa técnica é necessária quando clocks sincronizados não estão disponíveis.
X.509 versão 3.
O formato x.509 versão 2 não transporta todas as informações que os projetos e implementações mais
recentes têm mostrado serem necessárias. Podem ser listados os seguintes requisitos não satisfeitos pela
versão 2:
1. O campo Titular (subject) é inadequado para transportar a identidade de um proprietário de chave a um
usuário de chave pública. No X.509 os nomes podem ser relativamente curtos e sem detalhes de
identificação óbvios, que podem ser necessários para o usuário.
2. O campo Titular também é inadequado para muitas aplicações, que normalmente reconhecem entidades
por um endereço de e-mail da Internet, um URL ou alguma outra identificação relacionada à Internet.
3. Existe uma necessidade de identificar informações de política de segurança. Isso permite que uma
aplicação ou função de segurança, como IPSec, relacione um certificado X.509 a determinada política.
4. Há necessidade de limitar o dano que pode resultar de uma CA defeituosa ou maliciosa, por meio da
definição de restrições sobre a aplicabilidade de um determinado certificado.
5. É importante ser capaz de identificar diferentes chaves usadas pelo mesmo proprietário em diferentes
ocasiões. Esse recurso admite gerenciamento de ciclo de vida da chave, em particular, a capacidade de
atualizar pares de chaves para usuários e CAs regularmente ou sob circunstâncias excepcionais.
Em vez de continuar a incluir campos para um formato fixo, os desenvolvedores de padrões sentiram que
uma técnica mais flexível era necessária. Assim a versão 3 inclui diversas extensões que podem ser
acrescidas ao formato da versão 2. Cada extensão consiste em um identificador de extensão, um
identificador de importância e um valor de extensão. O indicador de importância indica se uma extensão
pode ser ignorada com segurança. Se esse identificador tiver um valor TRUE e uma implementação não
reconhecer a extensão, ela deverá tratar o certificado como inválido.
As extensões de certificado podem ser de três categorias gerais: informações de chave e política, atributos
de titular e emissor e restrições de caminho de certificação.
Informações de chave e política.
Essas extensões carregam informações adicionais sobre as chaves do titular e do emissor, mais indicadores
da política de certificado. Uma política de certificado é um conjunto nomeado de regras que indicam a
aplicabilidade de um certificado a determinada comunidade e/ou classe de aplicação com requisitos de
segurança comuns. Por exemplo, uma política poderia ser aplicável à autenticação de transações de
intercâmbio eletrônico de dados (EDI) para comércio de bens dentro de determinada faixa de preço.
Essa área inclui o seguinte:
 Indicador de chave de autoridade: Identifica a chave pública a ser usada para verificar a
assinatura nesse certificado ou CRL. Permite que chaves distintas da mesma CA sejam
diferenciadas.Um uso desse campo é para da atualização do par de chaves da CA.
 Identificador da chave do titular: Identifica a chave pública sendo certificada. Útil para
atualizações do par de chaves do titular. Além disso, um titular pode ter vários pares de
chaves e, por conseguinte diferentes certificados para diferentes finalidades (por exemplo
assinatura digital e acordo de chaves de criptografia).
 Uso de Chave: Indica uma restrição imposta como a finalidade para a qual, e as políticas
sob as quais, a chave pública pode ser usada. Pode indicar um ou mais dos seguintes:
assinatura digital, irretratabilidade (nonrepudiation), criptografia de chave, criptografia
de dados, acordo de chaves, verificação de assinatura da CA nos certificados, verificação
de assinatura da CA nas CRLs.
 Período de uso da chave privada: Indica o período de uso da chave privada
correspondente à chave pública. Normalmente, a chave privada é usada por um período
diferente da validade da chave pública. Por exemplo, as chaves de assinatura digital, o
período de uso para a chave privada de assinatura normalmente é mais curto que para a
chave pública de verificação.
 Políticas de certificado: Os certificados podem ser usados em ambientes onde diversas
políticas se aplicam. Essa extensão lista políticas que o certificado reconhecidamente
suporta, juntamente com as informações qualificadoras opcionais.
 Mapeamento de política: Usados apenas em certificados para CAs emitidos por outras
CAs. Os mapeamentos de política permitem que uma CA emissora indique que uma ou
mais das políticas do emissor podem ser consideradas equivalentes a outra política usada
no domínio da CA subordinada.
INFRA-ESTRUTURA DE CHAVE PÚBLICA.
A RFC 2822 (Internet Security Glossary) define a infraestrutura de chave pública (PKI - Public-Key
Infrastructure) como o conjunto de hardware, software, pessoas, políticas e procedimentos necessários para
criar, gerenciar, armazenar, distribuir e revogar certificados digitais com base na criptografia assimétrica. O
objetivo principal para desenvolver uma PKI é permitir a aquisição segura, conveniente e eficiente de
chaves públicas. O grupo de trabalho Public Key Infrastructure X.509 (PKIX) da Internet Engeneering Task
Force (IETF) tem sido a força motriz por trás da preparação de um modelo formal (e genérico) baseado no
X.509, que seja adequado para a implantação de uma arquitetura baseada em certificado na Internet.
A figura a seguir mostra o inter-relacionamento entre os principais elementos do PKIX. Esses elementos
são:
 Entidade final: Um termo genérico usado para indicar os usuários finais, dispositivos (por
exemplo servidores, roteadores) ou qualquer outra entidade que possa ser identificada no
campo titular de um certificado de chave pública. As entidades finais normalmente
consomem e/ou dão suporte a serviços relacionados a PKI.
 Autoridade de certificação (CA): O emissor dos certificados e (normalmente) listas de
revogação de certificado (CRLs). Também pode dar suporte a diversas funções
administrativas, embora estas geralmente sejam delegadas a um ou mais autoridades de
registro.
 Autoridade de registro (RA): Um componente opcional que pode assumir diversas
funções administrativas da CA. A RA normalmente está associada ao processo de
registro da entidade final, mas também pode auxiliar em várias outras áreas.
 Emissor da CRL: Um componente opcional que uma CA pode delegar para publicar
CRLs.
 Repositório: Um termo genérico usado para indicar qualquer método para armazenar
certificados e CRLs de modo que possam ser recuperados por entidades finais.
Modelo arquitetônico PKIX.( Stallings, pag 309)
Fonte: William Stallings - Criptografia e segurança de redes, 4ª Ed. Pearson Education

Cadeia de emissão de certificados digitais


Neste tópico serão mostrados os aspectos que envolvem assinatura digital e emissão de certificação digital.

NESTE TÓPICO

NESTE TÓPICO
Assinatura digital.
Certificado digital.
Alguns tipos especiais de certificado digital que você pode encontrar são:
Resumo.
Referências
Marcar
tópico

Este tópico contém as explicações sobre a cadeia de emissão de certificados digitais como forma de
autenticação de mensagens. Explica também que o certificado digital de uma AC é emitido, geralmente, por
outra AC.
Assinatura digital.
A assinatura digital permite comprovar a autenticidade e a integridade de uma informação, ou seja, que ela
foi realmente gerada por quem diz ter feito isto e que ela não foi alterada.
A assinatura digital baseia-se no fato de que apenas o dono conhece a chave privada e que, se ela foi usada
para codificar uma informação, então apenas seu dono poderia ter feito isto. A verificação da assinatura é
feita com o uso da chave pública, pois se o texto foi codificado com a chave privada, somente a chave
pública correspondente pode decodificá-lo.
Para contornar a baixa eficiência característica da criptografia de chaves assimétricas, a codificação é feita
sobre o hash e não sobre o conteúdo em si, pois é mais rápido codificar o hash (que possui tamanho fixo e
reduzido) do que a informação toda.
Certificado digital.
Como dito anteriormente, a chave púbica pode ser livremente divulgada. Entretanto, se não houver como
comprovar a quem ela pertence, pode ocorrer de você se comunicar, de forma cifrada, diretamente com um
impostor.
Um impostor pode criar uma chave pública falsa para um amigo seu e enviá-la para você ou disponibilizá-la
em um repositório. Ao usá-la para codificar uma informação para o seu amigo, você estará, na verdade,
codificando-a para o impostor, que possui a chave privada correspondente e conseguirá decodificar.
Uma das formas de impedir que isto ocorra é pelo uso de certificados digitais.
O certificado digital é um registro eletrônico composto por um conjunto de dados que distingue uma
entidade e associa a ela uma chave pública. Ele pode ser emitido para pessoas, empresas, equipamentos ou
serviços na rede (por exemplo, um site Web) e pode ser homologado para diferentes usos, como
confidencialidade e assinatura digital.
Um certificado digital pode ser comparado a um documento de identidade, por exemplo, o seu passaporte,
no qual constam os seus dados pessoais e a identificação de quem o emitiu.
No caso do passaporte, a entidade responsável pela emissão e pela veracidade dos dados é a Polícia Federal.
No caso do certificado digital esta entidade é uma Autoridade Certificadora (AC).
Uma AC emissora é também responsável por publicar informações sobre certificados que não são mais
confiáveis. Sempre que a AC descobre ou é informada que um certificado não é mais confiável, ela o inclui
em uma “lista negra”, chamada de “Lista de Certificados Revogados” (LCR) para que os usuários possam
tomar conhecimento. A LCR é um arquivo eletrônico publicado periodicamente pela AC, contendo o
número de série dos certificados que não são mais válidos e a data de revogação.
A Figura a seguir ilustra como os certificados digitais são apresentados nos navegadores Web.
Figura 1- Certificados apresentados nos navegadores
Fonte: Fonte: Cartilha de Segurança da Informação: disponível em www.cartilha.cert.br

Note que, embora os campos apresentados sejam padronizados, a representação gráfica pode variar entre
diferentes navegadores e sistemas operacionais. De forma geral, os dados básicos que compõem um
certificado digital são:

 versão e número de série do certificado;

 dados que identificam a AC que emitiu o certificado;

 dados que identificam o dono do certificado (para quem ele foi emitido);

 chave pública do dono do certificado;

 validade do certificado (quando foi emitido e até quando é válido);

 assinatura digital da AC emissora e dados para verificação da assinatura.

O certificado digital de uma AC é emitido, geralmente, por outra AC, estabelecendo uma hierarquia
conhecida como “cadeia de certificados” ou “caminho de certificação”. A AC raiz, primeira autoridade da
cadeia, é âncora de confiança para toda a hierarquia e, por não existir outra AC acima dela, possui um
certificado autoassinado (mais detalhes a seguir). Os certificados das ACs raízes publicamente reconhecidas
já vêm inclusos, por padrão, em grande parte dos sistemas operacionais e navegadores e são atualizados
juntamente com os próprios sistemas. Alguns exemplos de atualizações realizadas na base de certificados
dos navegadores são: inclusão de novas ACs, renovação de certificados vencidos e exclusão de ACs não
mais confiáveis.
Alguns tipos especiais de certificado digital que você pode
encontrar são:
Certificado autoassinado: é aquele no qual o dono e o emissor são a mesma entidade. Costuma ser usado de
duas formas:

Legítima: além das ACs raízes, certificados autoassinados também costumam ser usados por instituições de
ensino e pequenos grupos que querem prover confidencialidade e integridade nas conexões, mas que não
desejam (ou não podem) arcar com o ônus de adquirir um certificado digital validado por uma AC
comercial.
Maliciosa: um atacante pode criar um certificado autoassinado e utilizar, por exemplo, mensagens de
phishing, para induzir os usuários a instalá-lo. A partir do momento em que o certificado for instalado no
navegador, passa a ser possível estabelecer conexões cifradas com sites fraudulentos, sem que o navegador
emita alertas quanto `a confiabilidade do certificado.
Figura 2 - cadeia de certificados digitais
Fonte: Fonte: www.cartilha.cert.br, disponível em www.cartilha.cert.br.

Certificado EV SSL (Extended Validation Secure Socket Layer): certificado emitido sob um processo mais
rigoroso de validação do solicitante. Inclui a verificação de que a empresa foi legalmente registrada,
encontra-se ativa e que detém o registro do domínio para o qual o certificado será emitido, além de dados
adicionais, como o endereço físico.
Resumo.
Neste tópico foram vistas as explicações sobre a cadeia de emissão de certificados digitais como forma de
autenticação de mensagens. Também foi explicado que o certificado digital de uma AC é emitido,
geralmente, por outra AC.

Segurança de e-mail
O objetivo deste tópico é descrever os dois principais elementos de segurança de e-mail.

NESTE TÓPICO
Alguns esclarecimentos preliminares.
Descrição operacional.
Autenticação.
Confidencialidade.
Resumindo Confidencialidade e autenticação.
Multipurpose Internet Mail Extensions.
Visão Geral.
Conteúdos do tipo MIME.
Funcionalidade do S/MIME.
Algoritmos Criptográficos.
Mensagem S/MIME.
Processamento de certificado S/MIME.
Resumo.
Referências
NESTE TÓPICO

Alguns esclarecimentos preliminares.


Descrição operacional.
Autenticação.
Confidencialidade.
Resumindo Confidencialidade e autenticação.
Multipurpose Internet Mail Extensions.
Visão Geral.
Conteúdos do tipo MIME.
Funcionalidade do S/MIME.
Algoritmos Criptográficos.
Mensagem S/MIME.
Processamento de certificado S/MIME.
Resumo.
Referências
Marcar
tópico

Neste tópico serão abordados os principais conceitos de segurança para e-mail, nele serão descritas as
principais características sobre PGP e S/MIME, sendo que ambos têm a finalidade de aumentar a segurança
de e-mail através de padrões e práticas reconhecidamente utilizados.
Nele também será apresentado um contexto geral da simbologia, além da forma de operação e
funcionalidades tanto do PGP quanto do S/MIME.
Alguns esclarecimentos preliminares.
O PGP é um pacote de software de código-fonte aberto, disponível gratuitamente, para segurança de e-mail.
Ele oferece autenticação por meio do uso da assinatura digital; confidencialidade pelo uso de criptografia de
chave simétrica; compressão usando o algoritmo ZIP; compatibilidade de e-mail usando o esquema de
codificação radix-64 e segmentação e remontagem para acomodar e-mails longos.
S/MIME é uma técnica padrão da Internet para segurança do e-mail, que incorpora a mesma funcionalidade
do PGP.
Em praticamente todos os ambientes distribuídos, o e-mail é a aplicação mais utilizada. Ela também é a
única aplicação distribuída que é amplamente utilizada por todas as arquiteturas e plataformas de
fornecedor. Os usuários esperam poder, e podem, enviar e-mails para outros que estejam conectados direta
ou indiretamente à Internet, independentemente do sistema operacional ou do pacote de comunicação do
host.
O PGP, Property Good Privacy é um notável fenômeno em grande parte pelo esforço de uma pessoa
chamada Phil Zimmermann, ele oferece um serviço de confidencialidade e autenticação que pode ser
utilizado para aplicações de e-mail e armazenamento de arquivos. Em resumo Zimmermann fez o seguinte:

1. Selecionou os melhores algoritmos criptográficos disponíveis como elementos básicos.

2. Integrou estes algoritmos em uma aplicação de uso geral, independente do sistema


operacional e processador, e ainda baseada em um pequeno conjunto de comandos fáceis
de usar.

3. Tornou o pacote e sua documentação, incluindo código-fonte livremente disponíveis por


meio da internet BBs e redes comerciais com AOL (America On Line).

4. Entrou em um acordo com um a empresa (Viacrypt, agora chamada de Network


Associates) para oferecer uma versão totalmente compatível e de baixo custo do PGP.

O PGP experimentou uma explosão de crescimento e agora é bastante utilizado. Diversos motivos podem
ser citados para esse crescimento:

 Ele está disponível no mundo inteiro, de forma gratuita, em diversas plataformas


incluindo Windows, UNIX, Macintosh e muito mais. Além disso a versão comercial
satisfaz os usuários que desejam um produto que vem com suporte do fornecedor.

 Ele é baseado em algoritmos que servem a uma ampla crítica pública e são considerados
extremamente seguros. Em especial o pacote inclui RSA, DSS e Diffie-Hellman para
criptografia de chave pública CAST-128, IDEA e 3DES para criptografia simétrica; e
SHA-1 para codificação de hash.

 Ele possui uma grande gama de aplicabilidade, desde corporações que desejam
selecionar e impor um esquema padronizado para criptografar arquivos e mensagens até
indivíduos que desejam se comunicar em segurança com outras pessoas no mundo inteiro
pela Internet e outras redes.

 Ele não foi desenvolvido nem é controlado por qualquer organização do governo ou de
padrões. Para aqueles que sempre desconfiam do "sistema" isso torna o PGP atraente.
 O PGP agora está em processo de tornar-se um padrão da Internet (RFC 3156). Apesar
disso, PGP ainda tem fama de um esforço anti-sistema.

Note que começamos com uma visão geral do funcionamento do PGP. Em seguida examinamos como as
chaves criptográficas são criadas e armazenadas. A seguir tratamos da questão vital do gerenciamento de
chaves públicas.
Considere os seguintes símbolos que serão utilizados no contexto deste trabalho:
A documentação do PGP normalmente usa o termo chave secreta para se referir a uma chave que faz par
com a chave pública em um esquema de criptografia de chave pública. Consideramos que esta prática pode
gerar confusão com a chave secreta utilizada para criptografia simétrica. Logo, usaremos o termo chave
privada em seu lugar.
Ks chave de sessão usada no esquema de criptografia simétrica.
PRa chave privada do usuário A, usada no esquema de criptografia de chaves públicas.
PUa chave pública do usuário A, usada no esquema de criptografia de chaves públicas.
EP criptografia de chave pública.
DP decriptografia de chave pública.
H função hash.
|| concatenação.
Z compressão utilizando algoritmo ZIP.
R64 conversão no formato ASCII radix 64.
Descrição operacional.
A operação real do PGP, ao contrário do gerenciamento de chaves, consiste em cinco serviços: autenticação,
confidencialidade, compressão, compatibilidade de e-mail e segmentação.
A tabela abaixo mostra um resumo dos serviços do PGP.

Resumo dos serviços do PGP

Um código de hash de uma mensagem é


criado usando SHA-1. Este resumo de
Assinatura DSS/SHA ou
mensagem é criptografado usando DSS
digital RSA/SHA
ou RSA, como chave privada do emissor
e incluído como mensagem.

Uma mensagem é criptografada usando


CAST-128 ou IDEA ou com três chaves,
CAST ou IDEA com Diffie-Hellman utilização gerada
Criptografia de
ou Triple DES ou pelo emissor. A chave de sessão é
mensagem
RSA criptografada usando Diffie-Hellman ou
RSA com a chave pública do destinatário
e incluída com a mensagem.

Uma mensagem pode ser comprimida,


Compressão ZIP para armazenamento ou transmissão,
usando ZIP.
Para oferecer transparência a aplicação
Compatibilidade Conversão radix de e-mail, uma mensagem criptografada
de e-mail 64 pode ser convertida em uma string
ASCII usando-se a conversão radix 64.

Para acomodar limitações de tamanho


Segmentação - máximo da mensagem, o PGP realiza
segmentação e remontagem.

Autenticação.
No esquema de assinatura digital, existe a seguinte sequência:
1 . O emissor cria uma mensagem.
2. SHA-1 é usado para gerar um código hash de 160 bits da mensagem.
3. O código de hash é criptografado com RSA usando a chave privada do emissor, e o resultado é anexado
no inicio da mensagem.
4. O receptor usa RSA com a chave pública do emissor para decriptografar e recuperar o código de hash.
5. O receptor gera um novo código de hash para a mensagem e o compara com o código de hash
decriptografado. Se os dois forem iguais, a mensagem será aceita como autêntica.
A combinação SHA-1 e RSA oferece um esquema de assinatura digital eficaz. Devido à força do RSA, o
destinatário tem garantia de que somente o possuidor da chave privada correspondente pode gerar uma nova
mensagem que tenha o mesmo código de hash e, por tanto, a mesma assinatura da mensagem original.
Como alternativa, as assinaturas podem ser geradas usando DSS/SHA-1.
Embora as assinaturas normalmente sejam anexadas à mensagem ou arquivo que elas assinam, isso nem
sempre acontece: Assinaturas separadas são aceitas. Uma assinatura separada pode ser armazenada e
transmitida separadamente da mensagem que ela assina. Isso é útil em vários contextos. Um usuário pode
querer manter um registro de assinatura separado de todas as mensagens enviadas ou recebidas. Uma
assinatura separada de um programa executável pode detectar infecção posterior por vírus. Finalmente,
assinaturas separadas podem ser usadas quando mais de uma parte tiver de assinar o documento, como um
contrato jurídico. A assinatura de cada pessoa é independente e, portanto, aplicada apenas ao documento.
Caso contrário, as assinaturas teriam de ser aninhadas, com o segundo assinante assinando o documento e a
primeira assinatura e assim por diante.
Confidencialidade.
Outro serviço básico oferecido pelo PGP é a confidencialidade, que é obtida a partir da criptografia das
mensagens a serem transmitidas ou armazenadas localmente como arquivos. Nos dois casos, o algoritmo de
criptografia simétrica CAST-128 pode ser utilizado. Como alternativa, IDEA ou 3DES podem ser usados. O
modo de feedback cofrado (CFB) de 64 bits é utilizado.
Funções criptográficas do PGP - Stalling pag.318

Como sempre é preciso resolver o problema de distribuição de chaves. No PGP, cada chave simétrica é
usada apenas uma vez, ou seja, uma nova chave é gerada como um número aleatório de 128 bits para cada
mensagem. Assim, embora isso seja conhecido na documentação como uma chave de sessão, na realidade é
uma chave de uso único (one-time-key). Por ser usada apenas uma vez, a chave de sessão está vinculada à
mensagem e é transmitida com ela. Para sua proteção, a chave é criptografada com a chave pública do
receptor. A figura um ilustra as sequencia que pode ser descrita desta forma:
1. O emissor gera uma mensagem e um número aleatório de 128 bits a ser usado como chave de sessão
apenas para esta mensagem.
2. A mensagem é criptografada, usando CAST-128 (ou IDEA ou 3DES) com a chave de sessão.
3. A chave de sessão é criptografada com RSA, usando a chave pública do destinatário, e é anexada ao
início da mensagem.
4. O receptor usa RSA com sua chave privada para decriptografar e recuperara a chave da sessão.
5. A chave de sessão é usada para decriptografar a mensagem.
Como alternativa ao uso do RSA para a criptografia de chave, o PGP oferece uma alternativa conhecida
como Diffie-Hellman, sendo que este algoritmo é usado para troca de chaves. Na verdade, o PGP usa uma
variante do Diffie-Hellman que oferece criptografia/decriptografia, conhecida como ELGamal.
Finalmente, o uso de chaves simétricas de uso único fortalece o que já é uma técnica de criptografia
simétrica forte. Apenas uma quantidade pequena de texto claro é criptografada com cada chave e não existe
relacionamento entre as chaves. O PGP oferece ao usuário uma série de opções de tamanho de chave, de
786 a 3.072 bits (a chave DSS para assinaturas é limitada a 1.024 bits).
O S/MIME (Secure/Multipurpose Internet Mail Extension) é um mecanismo de segurança para padrão de
formato de e-mail MIME da Internet, com base na tecnologia RSA Data Security. Embora PGP e S/MIME
estejam a caminho de se tornar um padrão IETF, parece provável que o S/MIME emergirá como o padrão
do setor para uso comercial e organizacional, enquanto que o PGP continuará sendo a escolha para a
segurança de e-mail pessoal por muitos anos. O S/MIME é definido em diversos documentos, sendo os mais
importantes as RFCs 3369, 3370, 3850 e 3851.
Para entender o S/MIME, primeiro precisamos ter um conhecimento geral do formato básico de e-mail que
ele utiliza, a saber, MIME. Mas para entender o significado do MIME, precisamos voltar ao padrão
tradicional de formato de e-mail, RFC 822, que ainda é comumente utilizado.
A estrutura geral de uma mensagem que esteja em conformidade com a RFC 822 é muito simples. Uma
mensagem consiste em algum número de linhas de cabeçalho (o cabeçalho) seguidas por texto irrestrito (o
corpo). O cabeçalho é separado do corpo por uma linha em branco. Em outras palavras, uma mensagem é
texto ASCII, e todas as linhas até a primeira linha em branco são consideradas linhas de cabeçalho usadas
pela parte do agente do usuário do sistema de correio.
Uma linha de cabeçalho, normalmente consiste em uma palavra-chave, seguida por um sinal de dois pontos,
seguido pelos argumentos da palavra-chave; o formato permite que uma linha longa seja desmembrada em
várias linhas. As palavras-chave mais utilizadas são From, To, Subject e Date, como o exemplo:
Date: Tue, 16 Jan 1998 10:37:17 (EST)
From: "Instrutor do topico"
Subject: Acompanhando a aula de hoje.
To: Luiz.Silva@prov.com
CC: Andre.Campos@outroprov.com

Meu caro Luiz, a partir deste ponto estamos


no verdadeiro corpo da mensagem, sendo que o corpo
da mensagem é separado do cabeçalho por uma linha
em branco.
Outro campo que normalmente é encontrado nos cabeçalhos da RFC 822 é Message-ID. Esse campo contem
um identificador exclusivo associado a esta mensagem.

Resumindo Confidencialidade e autenticação.


Conforme ilustrado na figura 1, os dois serviços podem ser usados para a mesma mensagem. Primeiro uma
assinatura é gerada para a mensagem de texto claro e anexada ao início da mensagem. Depois a mensagem
em texto claro mais a assinatura é criptografada usando CAST-128 (ou IDEA ou 3DES) e a chave de sessão
é criptografada usando RSA ( ou ELGamal).
Multipurpose Internet Mail Extensions.
O MIME é uma extensão estruturada da RFC 822 que pretende resolver alguns dos problemas e limitações
do uso do SMTP (Simple Mail Transfer Protocol) ou algum outro protocolo de transferência de correio e a
RFC 822 para e-mail.
Algumas limitações do esquema SMTP/822:

1. O SMTP não pode transmitir arquivos executáveis ou outros objetos binários. Diversos
esquemas são usados para converter arquivos binários em um formato de texto que possa
ser usado pelos sistemas de correio SMTP, incluindo o popular esquema
UUencode/UUdecode do UNIX. Porém nenhum desses é um padrão.

2. O SMTP não pode transmitir dados de texto que incluam caracteres acentuados, pois
estes são representados por códigos de 8 bits com valores a partir de 128 (decimal), e o
SMTP é limitado ao ASCII de 7 bits.

3. Os servidores SMTP podem rejeitar a mensagem de e-mail acima de um certo tamanho.

4. Gateways SMTP que convertem entre ASCII e o código de caracteres EBCDIC não
utilizam um conjunto consistente de mapeamento, resultando em problemas de
conversão.

5. Gateways SMTP para redes de e-mail X.400 não podem tratar de dados não textuais
incluídos em mensagens X.400.

6. Algumas Implementações SMTP não adotem completamente aos padrões SMTP


definidos na RFC 821.

O MIME tem por finalidade resolver esses problemas de maneira compatível com as implementações RFC
822 existentes. A especificação é fornecida nas RFCs 2045 a 2049.
Visão Geral.
A especificação MIME inclui os seguintes elementos:

1. Cinco novos campos de cabeçalho de mensagem são definidos, e estes podem ser
incluídos em um cabeçalho RFC 822. Esses campos oferecem informações sobre o corpo
da mensagem.

2. Diversos formatos de conteúdo são definidos, padronizando assim representações que


suportam mensagens multimídia.

3. Codificações de transferência são definidas para permitir a conversão de qualquer


formato de conteúdo em uma forma protegida contra alteração pelo sistema de correio.

Os cinco campos de cabeçalho definidos no MIME são os seguintes:


MIME-Version: Precisa ter o valor de parâmetro 1.0. Esse campo indica que a mensagem está em
conformidade com as RFCs 2045 e 2046.
Content-Type: Descreve os dados contidos no corpo com detalhes suficiente para que o agente do usuário
receptor possa escolher um agente ou mecanismo apropriado para representar os dados do usuário ou lidar
de alguma forma com os dados de uma maneira apropriada.
Content-Transfer-Encoding: Indica o tipo de transformação que foi usado para representar o corpo da
mensagem de uma maneira que seja aceitável para transporte de correio.
Content-ID: Usado para identificar entidades MIME exclusivamente em contextos múltiplos.
Content-Description: Uma decisão textual do objeto com o corpo; isto é útil quando o objeto não é legível
(por exemplo dados de áudio).
Qualquer um ou todos esses campos podem aparecer em um cabeçalho RFC 822 normal. Uma
implementação compatível precisa ter suporte para os campos MIME-Version, Content-Type e Content-
Transfer-Encoding; os campos Content-ID e Content-Description são opcionais e podem ser ignorados pela
implementação do destinatário.
Conteúdos do tipo MIME.

Conteúdos do típo MIME

Tipo Subtipo Descrição

Text Plain Texto não formatado; pode ser ASCII ou ISO 8859.

Enriched Oferece maior flexibilidade de formato.

As diferentes partes são independentes, mas devem


ser transmitidas juntas. Elas devem ser apresentadas
Multipart Mixed
ao receptor na ordem em que aparecem na mensagem
de e-mail.

Difere do Mixed apenas porque nenhuma ordem é


Parallel
definida para a entrega das partes ao receptor.

As diferentes partes são versões alternativas da


mesma informação. Elas são ordenadas em ordem
Alternative crescente de fidelidade ao original, e o sistema de e-
mail do destinatário deverá exibir a 'melhor' versão ao
usuário.

Semelhante ao Mixed, mas o tipo/subtipo padrão de


Digest
cada parte é message/rfc822.

O corpo é, ele mesmo, uma mensagem encapsulada


Message rfc822
em conformidade com a RFC 822.
Usado para permitir a fragmentação de grandes itens
Partial de e-mail, de uma maneira transparente ao
destinatário.

External- Contém um ponteiro para um objeto que está em


body outro lugar.

Image jpeg A imagem está no formato JPEG, codificação JFIF.

gif A imagem está no formato GIF.

Video mpeg Formato MPEG.

Codificação ISDN lei u em 8 bits e único canal, em


Audio Basic
uma taxa de amostragem de 8 kHz.

Application Post Script Adobe Postscript.

octet- Dados binário e em geral constituído em bytes de 8


stream bits.

Funcionalidade do S/MIME.
Em termos de funcionalidade geral, o S/MIME é muito semelhante ao PGP. Ambos oferecem a capacidade
de assinar e/ou criptografar mensagens. Nesta parte do tópico, será resumida a capacidade do S/MIME.
Funções do S/MIME:
 Dados envelopados: Consiste em conteúdo criptografado de qualquer tipo e as chaves de
criptografias do conteúdo criptografado para um ou mais destinatários.
 Dados assinados: Uma assinatura digital é formada tomando-se o resultado da mensagem
do conteúdo a ser assinado, e depois o criptografado com a chave privada do assinante. O
conteúdo mais assinatura são então codificados usando a codificação base64. Uma
mensagem de dados assinada só pode ser vista por um destinatário com capacidade
S/MIME.
 Dados assinados às claras: Assim como os dados assinados, uma assinatura digital de
conteúdo é realizada. Porém nesse caso, somente a assinatura digital é codificada usando
base64. Como resultado, os destinatários sem capacidade S/MIME podem visualizar o
conteúdo da mensagem, embora não possam verificar a assinatura.
 Dados assinados e envelopados: Pode haver aninhamento, de modo que dados
criptografados possam ser assinados ou assinados às claras possam ser criptografados.
Algoritmos Criptográficos.
A tabela a seguir resume os algorítmos criptográficos usados em S/MIME. O S/MIME usa a seguinte
terminologia, retirada da RFC2119 para especificar o nível do requisito.
 Deve: A definição é um requisito absoluto da especificação. Uma implementação precisa
incluir esse recurso ou função para estar em conformidade com a especificação.
 Deveria: Pode haver motivos válidos em determinadas circunstâncias para ignorar este
recurso ou função mas recomenda-se que uma implementação inclua o recurso ou a
função.
Algorítmos criptográficos usados em S/MIME

O corpo a ser transmitido é criado no formato nativo do sistema. O


conjunto de caracteres nativo é usado e, onde apropriado, as
convenções de fim de linha locais também são usadas. O corpo pode ser
um arquivo de texto em estilo UNIX, ou uma imagem bitmap da Sun,
Forma
ou um arquivo indexado do VMS, ou dados de áudio em um formato
nativa
dependente do sistema armazenado apenas na memória, ou qualquer
outra coisa que corresponda ao modelo local par a representação de
alguma forma de informação. Fundamentalmente, os dados são criados
no formato "nativo" que corresponde ao tipo de mídia.

O corpo inteiro, incluindo informações extras como tamanho de registro


e possivelmente informações de atributos de arquivo, é convertido em
uma forma canônica universal. O tipo de midia específico do corpo,
além de seus atributos associados, dita a natureza da forma canônica
usada. A conversão na forma canônica apropriada pode envolver a
conversão do conjunto de caracteres, transformação de dados de áudio,
Forma
compressão ou várias outras operações específicas aos diversos tipos de
canônica
mídia.Porém, se a conversão do conjunto de caracteres for envolvida,
deve-se ter o cuidado de entender a semântica do tipo de mídia, que
pode ter fortes implicações para qualquer conversão de conjunto de
caracteres (por exemplo, com relação a caracteres sintaticamente
significativos em um subtipo de texto diferente de "plan" - sem
formatação).

Mensagem S/MIME.
O S/MIME utiliza diversos tipos de conteúdo MIME novos, sendo que todos os novos tipos de aplicação
utilizam a designação PKCS. Isso se refere a um conjunto de especificações de criptografia de chave
pública emitida pela RSA Laboratories e disponíveis para o esforço S/MIME.
A tabela a seguir mostra os tipos de conteúdo S/MIME:

Parâmetro
Tipo Subtipo Descrição
SMIME

pkcs 7- Uma entidade S/MIME


Multipart signedData
mime assinada.

pkcs 7- Uma entidade S/MIME


Application envelopedData
mime Criptografada.

Uma entidade contendo


pkcs 7- signedData
mime degenetado apenas certificados de
chave pública.

pkcs 7-
CompressedData CompressedData
mime
O tipo de conteúdo da
pkcs 7- subparte de assinatura
signedData
signature de uma mensagem
multipart/signed.

Processamento de certificado S/MIME.


O S/MIME usa certificados de chave pública que estão de acordo com a versão 3 do X.509 (autenticação).
O esquema de gerenciamento de chaves usado pelo S/MIME é, de algumas maneiras, um híbrido entre uma
hierarquia de certificação X.509 estrita à teia de confiança do PGP. Assim como o modelo PGP,
gerenciadores e/ou usuários do S/MIME precisam configurar cada cliente com uma lista de chaves
confiáveis e com listas de revogações de certificado. Ou seja, é local a responsabilidade por manter os
certificados necessários para verificar as assinaturas que chegam e criptografar as mensagens que saem. Por
outro lado, os certificados são assinados por autoridades de certificação.

Resumo.
Em resumo, neste tópico foram abordados os conceito principais sobre PGP e S/MIME, sendo que ambos
tem a finalidade de aumentar a segurança de e-mail através de padrões e práticas reconhecidamente
utilizados.
Nele também foi apresentado um contexto geral da simbologia, além da forma de operação e
funcionalidades tanto do PGP quanto do S/MIME.

Protocolos utilizados para navegação segura na


web
Este tópico tem por objetivo a descrição dos protocolos utilizados para os processos de navegação na
Internet.

NESTE TÓPICO
NESTE TÓPICO

Protocolo HTTP e HTTPS.


Tipos de Conexão.
Algumas recomendações importantes:
Em relação ao uso dos navegadores "Web".
Quanto ao uso de programas leitores de "e-mails".
Ao acessar "Webmails".
Ao efetuar transações bancárias e acessar sites de Internet Banking.
Ao efetuar transações comerciais e acessar sites de comércio eletrônico.
Resumo.
Referências
Marcar
tópico

Este tópico concentra-se na descrição dos protocolos utilizados pelos browsers para navegar pela web. Nele
serão abordados os aspectos que tronam esta navegação segura e eficiente para o usuário do computador
pessoal e/ou daqueles que se utilizam de portátil em função da sua mobilidade.
Protocolo HTTP e HTTPS.
Ao navegar na Internet, é muito provável que a grande maioria dos acessos que são realizados não envolva
o tráfego de informações sigilosas, como quando se acessa sites de pesquisa ou de notícias. Esses acessos
são geralmente realizados pelo protocolo HTTP, onde as informações trafegam em texto claro, ou seja, sem
o uso de criptografia.
O protocolo HTTP, além de não oferecer criptografia, também não garante que os dados não possam ser
interceptados, coletados, modificados ou retransmitidos e nem que o gerador da mensagem esteja se
comunicando exatamente com o site desejado. Por estas características, ele não é indicado para
transmissões que envolvem informações sigilosas, como senhas, números de cartão de crédito e dados
bancários, e deve ser substituído pelo HTTPS, que oferece conexões seguras.
O protocolo HTTPS utiliza certificados digitais para assegurar a identidade, tanto do site de destino como a
identidade do gerador da mensagem, caso este possua um. Também utiliza métodos criptográficos e outros
protocolos, como o SSL (Secure Sockets Layer) e o TLS (Transport Layer Security), para assegurar a
confidencialidade e a integridade das informações.
Sempre que um acesso envolver a transmissão de informações sigilosas, é importante certificar-se do uso de
conexões seguras. Para isso, deve-se saber como identificar o tipo de conexão sendo realizada pelo próprio
navegador Web e ficar atento aos alertas apresentados durante a navegação para que se possa, caso
necessário, tomar decisões apropriadas.
Tipos de Conexão.
Para facilitar a identificação do tipo de conexão em uso é possível buscar auxílio dos mecanismos gráficos
disponíveis nos navegadores Web mais usados atualmente. Estes mecanismos, apesar de poderem variar de
acordo com o fabricante de cada navegador, do sistema operacional e da versão em uso, servem como um
forte indício do tipo de conexão sendo usada e podem orientá-lo a tomar decisões corretas.
De maneira geral, é possível se deparar com os seguintes tipos de conexões:
Conexão padrão: é a usada na maioria dos acessos realizados. Não provê requisitos de segurança e alguns
indicadores deste tipo de conexão, ilustrados na Figura 1 são:
 o endereço do site começa com "http://";

 em alguns navegadores, o tipo de protocolo usado (HTTP), por ser o padrão das
conexões, pode ser omitido na barra de endereços;

 um símbolo do site (logotipo) é apresentado próximo à barra de endereço e, ao passar


o mouse sobre ele, não é possível obter detalhes sobre a identidade do site.

Figura 1- Conexões não seguras em diversos navegadores.


Fonte: www.cartilha.cert.br

Conexão segura: é a que deve ser utilizada quando dados sensíveis são transmitidos, geralmente usada para
acesso a sites de Internet Banking e de comércio eletrônico. Provê autenticação, integridade e
confidencialidade, como requisitos de segurança. Alguns indicadores deste tipo de conexão, ilustrados na
Figura 2 são:
 o endereço do site começa com "https://";

 o desenho de um "cadeado fechado" é mostrado na barra de endereço e, ao clicar sobre


ele, detalhes sobre a conexão e sobre o certificado digital em uso são exibidos;

 um recorte colorido (branco ou azul) com o nome do domínio do site é mostrado ao lado
da barra de endereço (à esquerda ou à direita) e, ao passar o mouse ou clicar sobre ele,
são exibidos detalhes sobre conexão e certificado digital em uso.
Figura 2 - Conexões segura em diversos tipos de navegadores.
Fonte: www.cartilha.cert.br

Conexão segura com EV SSL: provê os mesmos requisitos de segurança que a conexão segura anterior,
porém com maior grau de confiabilidade quanto à identidade do site e de seu dono, pois utiliza certificados
EV SSL.
O EV SSL trabalha com uma Autoridade Certificadora (AC). Uma AC emissora é também responsável por
publicar informações sobre certificados que não são mais confiáveis. Sempre que a AC descobre ou é
informada que um certificado não é mais confiável, ela o inclui em uma "lista negra", chamada de "Lista de
Certificados Revogados" (LCR) para que os usuários possam tomar conhecimento. A LCR é um arquivo
eletrônico publicado periodicamente pela AC, contendo o número de série dos certificados que não são mais
válidos e a data de revogação.
O certificado digital de uma AC é emitido, geralmente, por outra AC, estabelecendo uma hierarquia
conhecida como "cadeia de certificados" ou "caminho de certificação". A AC raiz, primeira autoridade da
cadeia, é a âncora de confiança para toda a hierarquia e, por não existir outra AC acima dela, possui um
certificado autoassinado. Os certificados das ACs raízes publicamente reconhecidas já vêm inclusos, por
padrão, em grande parte dos sistemas operacionais e navegadores e são atualizados juntamente com os
próprios sistemas. Alguns exemplos de atualizações realizadas na base de certificados dos navegadores são:
inclusão de novas ACs, renovação de certificados vencidos e exclusão de ACs não mais confiáveis.
Alguns tipos especiais de certificado digital possíveis de serem encontrados são:
Certificado autoassinado: é aquele no qual o dono e o emissor são a mesma entidade. Costuma ser usado
de duas formas:
Legítima: além das ACs raízes, certificados autoassinados também costumam ser usados por instituições de
ensino e pequenos grupos que querem prover confidencialidade e integridade nas conexões, mas que não
desejam (ou não podem) arcar com o ônus de adquirir um certificado digital validado por uma AC
comercial.
Maliciosa: um atacante pode criar um certificado autoassinado e utilizar, por exemplo, mensagens
de phishing, para induzir os usuários a instalá-lo. A partir do momento em que o certificado for instalado no
navegador, passa a ser possível estabelecer conexões cifradas com sites fraudulentos, sem que o navegador
emita alertas quanto à confiabilidade do certificado.
Certificado EV SSL (Extended Validation Secure Socket Layer): certificado emitido sob um processo mais
rigoroso de validação do solicitante. Inclui a verificação de que a empresa foi legalmente registrada,
encontra-se ativa e que detém o registro do domínio para o qual o certificado será emitido, além de dados
adicionais, como o endereço físico.
Além de apresentar indicadores similares aos apresentados na conexão segura sem o uso de EV SSL,
também introduz um indicador próprio, ilustrado na Figura 3, que é:
 a barra de endereço e/ou o recorte são apresentados na cor verde e no recorte é colocado
o nome da instituição dona do site.
Figura 3 - Conexão segura usando EV SSL em diversos navegadores.
Fonte: www.cartilha.cert.br

Outro nível de proteção de conexão usada na Internet envolve o uso de certificados autoassinados e/ou cuja
cadeia de certificação não foi reconhecida. Este tipo de conexão não pode ser caracterizado como sendo
totalmente seguro (e nem totalmente inseguro) pois, apesar de prover integridade e confidencialidade, não
provê autenticação, já que não há garantias relativas ao certificado em uso.
Quando se acessa um site utilizando o protocolo HTTPS, mas o navegador não reconhece a cadeia de
certificação ele emite avisos e em geral, alertas são emitidos em situações como:

 o certificado está fora do prazo de validade;

 o navegador não identificou a cadeia de certificação (dentre as possibilidades, o


certificado pode pertencer a uma cadeia não reconhecida, ser autoassinado ou o
navegador pode estar desatualizado e não conter certificados mais recentes de ACs);

 o endereço do site não confere com o descrito no certificado;

 o certificado foi revogado.

Caso o usuário, apesar dos riscos, opte por aceitar o certificado, a simbologia mostrada pelo navegador do
usuário será a ilustrada na Figura 4. Alguns indicadores deste tipo de conexão são:

 um cadeado com um "X" vermelho é apresentado na barra de endereço;

 a identificação do protocolo "https" é apresentado em vermelho e riscado;

 a barra de endereço muda de cor, ficando totalmente vermelha;

 um indicativo de erro do certificado é apresentado na barra de endereço;

 um recorte colorido com o nome do domínio do site ou da instituição (dona do


certificado) é mostrado ao lado da barra de endereço e, ao passar o mouse sobre ele, é
informado que uma exceção foi adicionada.

Figura 4 - Conexão HTTPS com cadeia de certificação não reconhecida.


Fonte: www.cartilha.cert.br

Certos sites fazem uso combinado, na mesma página Web, de conexão segura e não segura. Neste caso,
pode ser que o cadeado desapareça, que seja exibido um ícone modificado (por exemplo, um cadeado com
triângulo amarelo), que o recorte contendo informações sobre o site deixe de ser exibido ou ainda haja
mudança de cor na barra de endereço, como ilustrado na Figura 5.
Mais detalhes sobre como reconhecer o tipo de conexão em uso podem ser obtidos em:
 Chrome - Como funcionam os indicadores de segurança do website (em
português) http://support.google.com/chrome/bin/answer.py?hl=pt-
BR&answer=95617
 Mozilla Firefox - How do I tell if my connection to a website is secure? (em
inglês) http://support.mozilla.org/en-US/kb/Site Identity Button
 Internet Explorer - Dicas para fazer transações online seguras (em
português) http://windows.microsoft.com/pt-BR/windows7/Tips-for-making-secure-
online-transaction-in-Internet-Explorer-9
 Safari -Using encryption and secure connections (em
inglês) http://support.apple.com/kb/HT2573

Figura 5 - Uso combinado de conexão segura e não segura.


Fonte: Fonte www.cartilha.cert.br

Para saber se um certificado é confiável, é necessário observar alguns requisitos, dentre eles:

 se o certificado foi emitido por uma AC confiável (pertence a uma cadeia de confiança
reconhecida);

 se o certificado está dentro do prazo de validade;

 se o certificado não foi revogado pela AC emissora;

 se o dono do certificado confere com a entidade com a qual está se comunicando (por
exemplo: o nome do site).
Ao se tentar acessar um site utilizando conexão segura, normalmente seu navegador já realiza todas estas
verificações. Caso alguma delas falhe, o navegador emite alertas semelhantes aos mostrados na Figura 6.
Figura 6 - Alerta de certificado não confiável em diversos navegadores.
Fonte: www.cartilha.cert.br

Em geral, alertas são emitidos em situações como:

 o certificado está fora do prazo de validade;

 o navegador não identificou a cadeia de certificação (dentre as possibilidades, o


certificado pode pertencer a uma cadeia não reconhecida, ser autoassinado ou o
navegador pode estar desatualizado e não conter certificados mais recentes de ACs);

 o endereço do site não confere com o descrito no certificado;

 o certificado foi revogado.

Ao receber os alertas do seu navegador é possível optar por:


Desistir da navegação: dependendo do navegador, ao selecionar esta opção o usuário será redirecionado
para uma página padrão ou a janela do navegador será fechada.
Solicitar detalhes sobre o problema: ao selecionar esta opção, detalhes técnicos serão mostrados e o
usuário pode usá-los para compreender o motivo do alerta e decidir qual opção selecionar.
Aceitar os riscos: caso o usuário, mesmo ciente dos riscos, selecione esta opção, a página desejada será
apresentada e, dependendo do navegador, você ainda terá a opção de visualizar o certificado antes de
efetivamente aceitá-lo e de adicionar uma exceção (permanente ou temporária).
Caso o usuário opte por aceitar os riscos e adicionar uma exceção, é importante que, antes de enviar
qualquer dado confidencial, deve-se verificar o conteúdo do certificado e observar:

 se o nome da instituição apresentado no certificado é realmente da instituição que se


deseja acessar. Caso não seja, este é um forte indício de certificado falso;

 se as identificações de dono do certificado e da AC emissora são iguais. Caso sejam, este


é um forte indício de que se trata de um certificado autoassinado. Observe que
instituições financeiras e de comércio eletrônico sérias dificilmente usam certificados
deste tipo;

 se o certificado encontra-se dentro do prazo de validade. Caso não esteja, provavelmente


o certificado está expirado ou a data do seu computador não está corretamente
configurada.

De qualquer modo, caso você receba um certificado desconhecido ao acessar um site e tenha alguma dúvida
ou desconfiança, não envie qualquer informação para o site antes de entrar em contato com a instituição que
o mantém para esclarecer o ocorrido.

Algumas recomendações importantes:

- Em relação ao uso dos navegadores "Web".

- Quanto ao uso de programas leitores de "e-mails".


- Ao acessar "Webmails".
- Ao efetuar transações bancárias e acessar sites de Internet Banking.
- Ao efetuar transações comerciais e acessar sites de comércio eletrônico.
Em relação ao uso dos navegadores "Web".
 o navegador deve estar atualizado, com a versão mais recente e com todas as atualizações
aplicadas;

 devem estar configurados para verificar automaticamente atualizações, tanto dele próprio
como de complementos que estejam instalados;

 a execução de programas "java" e "JavaScript" deve estar permitidas, e deve-se utilizar


complementos, como o NoScript (disponível para alguns navegadores), para liberar
gradualmente a execução, conforme necessário, e apenas em sites confiáveis;
 deve ser permitido que programas "ActiveX" sejam executados apenas quando vierem
de sites conhecidos e confiáveis;
 é necessário ser cuidadoso ao usar "cookies" caso se deseje ter mais privacidade;

 caso a opção seja por permitir que o navegador grave as suas senhas, deve-se ter certeza
de cadastrar uma chave mestra e de jamais esquecê-la;

 o computador deve ser mantido de forma segura.

Quanto ao uso de programas leitores de "e-mails".


 deve-se mantê-lo atualizado, com a versão mais recente e com as todas atualizações
aplicadas;

 deve estar configurado para verificar automaticamente atualizações, tanto dele próprio
como de complementos que estejam instalados;

 não ser utilizado como navegador "Web" (desliguar o modo de visualização no formato
HTML);
 é necessário ser cuidadoso ao usar cookies caso se deseje ter mais privacidade;
 deve-se ter cuidado ao clicar em links presentes em e-mails (se for realmente necessário
acessar a página do link, digitar o endereço diretamente no navegador Web);

 desconfiar de arquivos anexados à mensagem mesmo que tenham sido enviados por
pessoas ou instituições conhecidas (o endereço do remetente pode ter sido falsificado e o
arquivo anexo pode estar infectado);

 antes de abrir um arquivo anexado à mensagem deve-se ter certeza de que ele não
apresenta riscos, verificando-o com ferramentas "antimalware";

 o sistema operacional deverá estar configurado para mostrar a extensão dos arquivos
anexados;

 desligar as opções que permitem abrir ou executar automaticamente arquivos ou


programas anexados às mensagens;

 as opções de execução de "JavaScript" e de programas "Java" devem estar desligadas;

 se for possível, opções para marcar mensagens suspeitas de serem fraude, devem ser
habilitadas;
 usar sempre criptografia para conexão entre ou leitor de "e-mails" e os servidores de "e-
mail" do provedor;

 manter o computador seguro.

Ao acessar "Webmails".
 é necessário ter cuidado ao acessar a página de seu "Webmail" para não ser vítima
de "phishing". Digite a URL diretamente no navegador e tenha cuidado ao clicar
em "links" recebidos por meio de mensagens eletrônicas;
 não se deve utilizar um site de busca para acessar seu Webmail (não há necessidade
disto, já que URLs deste tipo são, geralmente, bastante conhecidas);
 é preciso ser cuidadoso ao elaborar sua senha de acesso ao "Webmail" para evitar que ela
seja descoberta por meio de ataques de força bruta;
 as opções de recuperação de senha devem ser configuradas, como um endereço de e-
mail alternativo, uma questão de segurança e um número de telefone celular;
 deve-se evitar acessar o Webmail em computadores de terceiros e, caso seja realmente
necessário, o modo de navegação anônima deve ser ativado;
 é necessário utilizar conexões seguras sempre que acessar o Webmail, especialmente ao
usar redes Wi-Fi públicas. Se possível deve-se configurar para que, por padrão, sempre
seja utilizada conexão via "https";

 manter o computador seguro.

Ao efetuar transações bancárias e acessar sites de Internet


Banking.
 certifique-se da procedência do "site" e da utilização de conexões seguras ao realizar
transações bancárias via Web;
 somente devem ser acessados sites de instituições bancárias digitando o endereço
diretamente no navegador Web, nunca clicando em links existentes em uma página ou
em uma mensagem;
 não utilize um site de busca para acessar o site do seu banco (não há necessidade disto, já
que URLs deste tipo são, geralmente, bastante conhecidas);

 ao acessar seu banco, forneça apenas uma posição do seu cartão de segurança (desconfie
caso, em um mesmo acesso, seja solicitada mais de uma posição);

 não forneça senhas ou dados pessoais a terceiros, especialmente por telefone;

 desconsidere mensagens de instituições bancárias com as quais você não tenha relação,
principalmente aquelas que solicitem dados pessoais ou a instalação de módulos de
segurança;

 sempre que ficar em dúvida, entre em contato com a central de relacionamento do seu
banco ou diretamente com o seu gerente;

 não realize transações bancárias por meio de computadores de terceiros ou redes Wi-Fi
públicas;

 verifique periodicamente o extrato da sua conta bancária e do seu cartão de crédito e,


caso detecte algum lançamento suspeito, entre em contato imediatamente com o seu
banco ou com a operadora do seu cartão;

 antes de instalar um módulo de segurança, de qualquer Internet Banking, certifique-se de


que o autor módulo é realmente a instituição em questão;
 mantenha seu computador seguro.

Ao efetuar transações comerciais e acessar sites de


comércio eletrônico.
 certifique-se da procedência do site e da utilização de conexões seguras ao realizar
compras e pagamentos via Web;
 somente acesse sites de comércio eletrônico digitando o endereço diretamente no
navegador Web, nunca clicando em um link existente em uma página ou em uma
mensagem;
 não utilize um site de busca para acessar o site de comércio eletrônico que você costuma
acessar (não há necessidade disto, já que URLs deste tipo são, geralmente, bastante
conhecidas);
 pesquise na Internet referências sobre o site antes de efetuar uma compra;

 desconfie de preços muito abaixo dos praticados no mercado;

 não realize compras ou pagamentos por meio de computadores de terceiros ou redes Wi-
Fi públicas;

 sempre que ficar em dúvida, entre em contato com a central de relacionamento da


empresa onde está fazendo a compra;

 verifique periodicamente o extrato da sua conta bancária e do seu cartão de crédito e,


caso detecte algum lançamento suspeito, entre em contato imediatamente com o seu
banco ou com a operadora do seu cartão de crédito;

 ao efetuar o pagamento de uma compra, nunca forneça dados de cartão de crédito


em sites sem conexão segura ou em e-mails não criptografados;

 mantenha seu computador seguro.

Resumo.
Neste tópico foram abordadas as descrições dos protocolos utilizados pelos browsers para navegar pela web.
Nele também fram abordados os aspectos que tronam esta navegação segura e eficiente para o usuário do
computador pessoal e/ou daqueles que se utilizam de portátil em função da sua mobilidade.

Tipos de backup
Estudar três tipos de backup: completo ou full, incremental e diferencial

NESTE TÓPICO
NESTE TÓPICO

Backup Completo ou Full


Backup incremental
Backup Diferencial
Testando os Backups
Conclusão
Referências
Marcar
tópico

Olá hoje vamos estudar alguns tipos de backup como: completo ou full, incremental e diferencial.
Realizar um backup parece ser simples, é copiar os arquivos de uma pasta e gravar em outro lugar e o
problema está resolvido. Apesar da simplicidade, a maioria dos usuários comuns ou até alguns profissionais
de TI de pequenas e médias empresas tem essa impressão quando tratados de backup.
Como qualquer contrato de seguro de cobertura parcial, não existe problema enquanto Não existir um
sinistro. Toda essa simplicidade e imprudência ao fazer backup, pode não ser percebido o risco caso o
sistema estiver funcionando normalmente e não exigir recuperação de dados ou plano de contingências
sendo colocados em prática.
O problema começa quando um servidor para de funcionar ou ocorre uma falha no sistema ou simplesmente
o usuário exclui acidentalmente um arquivo. Nessas horas o sistema de backup tem que funcionar, sob pena
de gerar prejuízos a empresa.
Ter uma estratégia de backup bem elaborada sempre faz a diferença. Conhecer os tipos de backup
existentes, softwares e equipamentos que podem ser usados para esse fim proporcionam maior velocidade
na solução dos problemas e diminuem o uso da infraestrutura de TI, mantendo os dados sempre atualizados
e seguros.
IMPORTANTE
A principal função de uma "ferramenta de backup" não é apenas garantir um backup fácil e rápido, mas
principalmente é garantir uma restauração rápida, eficiente e consistente dos dados perdidos.
Backup

Perguntas importantes

Backup Completo ou Full


Backup completo pode ser definido como fazer a cópia completa de todos os arquivos, pastas ou volumes
para destinos estabelecidos como servidores, sistemas de discos ou fitas como tapes LTO e autoloaders.
Embora esse tipo de backup forneça a melhor proteção contra a perda de dados, a maioria das organizações
só os utiliza periodicamente devido ocupar maior espaço de armazenamento e tempo de processamento,
devido ao volume de dados ser maior.
Sua principal vantagem é a existência de uma reprodução fiel e completa de todas as informações do
ambiente em questão
Nas definições de Política de Backup este tipo deve ser executado mensalmente, garantindo a segurança de
que todos os dados existentes estarão protegidos e principalmente é a base para que você tenha um Disaster
Recovery efetivo, conseguindo recuperar todo seu ambiente em caso de perda total dos dados.

Backup completo

Backup incremental
O backup incremental, é o mais rápido, já que não é feita uma cópia de todos os arquivos. Surgiu para sanar
as deficiências encontradas no backup completo, como a de copiar todos os dados a cada operação, mesmo
que nenhuma alteração tenha sido realizada. Além dos recursos desnecessariamente consumidos para manter
diversas cópias completas dos dados, o crescimento explosivo na criação de conteúdo aumentou muito o
tempo gasto para manter o backup sempre atualizado.
O primeiro passo para instituir um sistema de backup incremental é a realização da cópia completa dos
dados. Assim que essa cópia for realizada, a cada nova instrução de backup o sistema verificará quais
arquivos foram alterados desde o último evento e, havendo alteração, só copiará os que forem mais atuais.
Esse processo gera um fragmento de backup a cada operação, menor que a cópia completa dos dados.
As principais vantagens em usar softwares com recursos do backup incremental é que esse processo é mais
rápido que o backup completo e, por gravar somente arquivos alterados, ocupa menos espaço.
A principal desvantagem dos backups incrementais está na demora para restauração, pois para que haja a
recuperação de arquivos é necessário restaurar o último backup completo e seus respectivos fragmentos
incrementais subsequentes. Isso implica correr riscos, pois caso apenas um dos arquivos incrementais
apresente problemas, toda a restauração estará comprometida.
Essa situação torna-se mais incômoda quando a política de backup adotada utiliza soluções baseadas em fita
e prevê dois ou três backups incrementais diários. Após um ano, caso haja a necessidade de utilização do
backup, a recuperação de dados pode envolver mais de mil fragmentos distribuídos em várias fitas, além do
backup completo original.
Backup incremental

Backup Diferencial
O Backup diferencial é semelhante ao incremental. Os dados copiados são os alterados em relação ao último
Backup Completo, armazenando mais dados do que o incremental.
Para minimizar esse risco da perda de dados, o backup diferencial alia o conceito de economia e velocidade
do backup incremental.
Após realizar o primeiro backup completo, cada backup diferencial compara o conteúdo a ser copiado com
o último backup completo e copia todas as alterações realizadas.
A quantidade de dados que será gravada a cada novo backup diferencial, pois o último fragmento sempre
conterá todas as diferenças entre o backup original e o volume de dados atualizado. Esse processo é mais
prático quando comparado ao incremental, pois só exigirá o backup completo e o último fragmento de
backup para restauração de dados.
O problema desse método é que dependendo do incremento de dados da empresa, cada processo poderá
gerar arquivos de backup diferenciais cada vez maiores, superando inclusive o tamanho do primeiro backup
completo. A cópia incremental apenas as últimas modificações são registradas, a velocidade do processo é
maior, pois apenas os dados alterados no último backup incremental são gravados.
Em questão de velocidade de realização do procedimento, ele é o intermediário entre os três tipos de
backup. Pois requer mais espaço de armazenamento do que o incremental.
Devido sua maior facilidade de recuperação, há uma maior segurança dos dados armazenados, diminuindo
as chances de perda no processo.
Backup diferencial

Testando os Backups
Todos os backups devem ser testados periodicamente, independentemente de seu (completo, incremental ou
diferencial). Qualquer mídia está sujeita a falha de gravação ou leitura dos dados. Caso a empresa não
possua um procedimento bem definido de verificação de backup o problema pode aparecer no momento que
necessite recuperar os dados.
Existes inúmeras razões para ocorrer uma falha de gravação ou leitura. Exemplos :

 Falha física - Desalinhamento do cabeçote do drive de fita, impossibilitando a gravação


correta ou a leitura dos dados.

 Falha lógica - Software de backup com funcionamento incorreto.

 Falha humana ? Erro do operador na execução do procedimento de backup.

Independente da causa, sem o teste periódico você não pode garantir que está gerando backups íntegros,
através dos quais poderá restaurar dados no futuro.
Backup

Conclusão
Backup Completo (Full)
É a cópia completa de todos os arquivos.

 Vantagens - Possui o tempo de restauração mais demorado.

 Desvantagens - É o tipo de backup mais demorado para ser executado e também o que
mais ocupa espaço em disco.

Backup Diferencial
Faz a cópia apenas das últimas modificações relativas ao último backup completo(full).

 Vantagens - A velocidade de backup é maior que a do completo e a velocidade de


restauração é maior do que a do incremental. Utiliza menos espaço em disco do que o
backup completo.

 Desvantagens - O tempo de restauração é maior do que o do backup completo. O


processo de backup é mais lento do que o incremental.

Backup Incremental
Faz a cópia das últimas alterações relativas ao último backup.

 Vantagens - É o processo de backup mais rápido dos três. Requer menos espaço de
armazenamento. O tempo de restauração é o mais rápido dos 3 tipos.
 Desvantagens - Passível de perda de dados.

Você também pode gostar