Minicurso SBBD2014

Estratégias para Proteção da
Privacidade de Dados Armazenados

na Nuvem
Eliseu C. Branco Jr.
Javam C. Machado
José Maria da Silva Monteiro
Quem somos nós?
Introdução
• Porque a privacidade é um problema se você
não tem nada a esconder?
Privacidade está fora de moda?
“…expect that the thousands of social media

websites can be regulated and protected
so that your pictures and identity don’t go online
is just not realistic anymore.” Mark Zuckeerberg
O que é Privacidade?
• Conceito complexo, multidimensional.
• Elementos da privacidade
– Sigilo => Problema de Confidencialidade
– Anonimato => Proteção de Identidade
– Isolamento => Direito de ficar indisponível
(ser esquecido)
• Privacidade em computação em nuvem é a habilidade
de um usuário ou organização controlar quais
informações eles revelam sobre si próprios na nuvem,
ou seja, controlar quem pode acessar qual informação
e de que forma isto pode ocorrer.
O que a privacidade significa
na era digital?
Privacidade das
comunicações
Privacidade
Privacidade
comporta-
pessoal
mental
Dimensões de Privacidade
• Privacidade Territorial: proteção da região
próxima a um indivíduo
• Privacidade do Indivíduo: proteção contra
danos morais, interferências indesejadas.
• Privacidade da informação: proteção para
dados pessoais coletados, armazenados,
processados e propagados para terceiros.
Conceitos Chaves para Privacidade
• Data Protection: gerenciamento de
informações pessoais
• Personal information, Personal data,
Personally Identifiable Information (PII):
informação que pode ser atribuída a um
determinado indivíduo
• Sensitive personal information: são categorias
especiais de dados (dados médicos,
financeiros, religiosos, políticos, sexuais)
Conceitos Chaves para Privacidade
• Data Controller: organização que determina a
forma pela qual e de que modo os dados
devem ser processados
• Data Processor: organização que processa os
dados, seguindo as diretrizes do Controller
• Data Subject: indivíduo a quem os dados se
referem direta ou indiretamente
Fonte: Pearson, S.: ‘Privacy, Security and Trust in Cloud Computing’: ‘Privacy
and Security for Cloud Computing’ (Springer, 2013), pp. 3-42
Esfera de Preocupação com Privacidade de dados
Influência
 coleção e armazenamento de dados não
Esfera do autorizados
usuário  Execução não autorizada de dados
 Exposição de dados
 mau julgamento a partir de dados parciais ou
Esfera da incorretos
organização  acesso não autorizado de dados pessoais
 uso não autorizado de dados por terceiros
 uso não autorizado de dados por terceiros
Esfera dos envolvidos na coleta dos dados
provedores de  uso não autorizado por outras organizações
serviços de  combinação de dados pessoais, a partir de
nuvem banco de dados diferentes para recriar o perfil
de um sujeito.
Quadro 1 - Esferas de Influência associadas às preocupações com privacidade de dados.
Fonte: Adaptado de [5]
You can have security and not have privacy, but
you cannot have privacy without security.
Garantir a segurança
e privacidade de
dados na nuvem é um
dos problemas que
necessita ser
resolvido para que
todo o potencial da
computação em
nuvem possa ser
explorado
pelas organizações.
Classificação de problemas de
privacidade e segurança na nuvem
1. governança,
2. conformidade,
3. confiança,
4. arquitetura,
5. gerenciamento de acesso
e identidade,
6. isolamento de software,
7. proteção de dados,
8. disponibilidade e
9. resposta a incidentes
Fonte:Jansen, W., and Grance, T.: ‘Guidelines on security and privacy in public cloud
computing’, NIST Special Publication, 2011, pp. 800-144
Segurança de Dados
• Tríade de Segurança: Confidencialidade,
Disponibilidade e Integridade
• Segurança da Rede
• Segurança de Dados
• Governança
• Legislação
Segurança na Nuvem
• Segurança de dados: armazenamento e acesso
• Segurança da rede: transferência de dados
• Localização dos dados: restrições legais
• Integridade dos dados: transações distribuídas
• Segregação dos dados: camada física e
camada de aplicação
• Acesso aos dados: vulnerabilidades do
ambiente multi-inquilino
Vulnerabilidades
• Máquinas virtuais de diferentes clientes
compartilhando os mesmos recursos físicos.
• Perda de controle físico da máquina pelo
cliente, que não pode se proteger contra
ataques e acidentes.
• Sub-provisionamento da largura de banda da
rede : ataque DOS-Denial of Service.
Modelos de Preservação de
Privacidade
• Necessidade de processamento de dados de
forma colaborativa na nuvem.
• Proteção contra provedores “semi-honestos”
• Proteção contra captura de informação por
terceiros
Modelos de Preservação de Privacidade
(Privacy Preserving Models)
Modelos de Anonimização
Searchable Encryption (SE)
Private Information retrieval (PIR)
Secure Multiparty Computation (SMC)

Anonimização de Dados
• Representa o fato do sujeito não ser
unicamente caracterizado dentro de um
conjunto de sujeitos.
• Objetivo: proteção de dados privados em
bases de dados pública.
• Disponibilizar microdados limitando o risco de
divulgação a um nível aceitável.
Técnicas de Anonimização de Dados
k-anonymity
l-diversity
LKC-privacy
t-closeness
b-likeness
Classificação de Atributos em Relação
à Divulgação de Dados de Indivíduos
• Identificadores: atributos que identificam
unicamente os indivíduos (ex. CPF)
• Semi-identificadores (SI): atributos que podem
ser combinados com informações externas para
expor alguns ou todos os indivíduos ou reduzir a
incerteza sobre suas identidades. (ex: data do
nascimento, CEP)
• Atributos sensíveis: atributos que contem
informações sensíveis sobre os indivíduos. (ex:
salário)
Operações de Anonimização
• Generalização: substituição por valores menos
específicos preservando semântica dos dados
– Ex: País - > Estado -> Cidade -> Bairro -> Rua ->
CEP (60148)
– CEP: 60*** -> 601** -> 6014* -> 60148
• Supressão: Apaga valores ou substitui-os por
“*”
• Encriptação : uso de esquemas de chave
pública ou privada sobre dados sensíveis
Operações de Anonimização
• Perturbação (Mascaramento): Utilizada em data-
mining
– Condensação: condensa os dados em múltiplos
grupos de tamanho predefinido (k). Preserva
informações estatísticas nos grupos
– Random Data Perturbation (RDP) : adiciona ruído

randômico aos dados numéricos sensíveis.
• Por exemplo, seja o conjunto de dados X, o conjunto Z dos
dados randomizados é computado como Z = AXB + C
• A = máscara de transformação de registro
• B = máscara de transformação de atributo
• C = mascara de deslocamento (ruído)
Mascaramento de Dados
• Utilizado para geração de bases de testes ou
treinamento.
• Substituição: troca randômica por conteúdo
semanticamente diferente.
• Embaralhamento: Substituição que utiliza valores da
própria coluna da tabela
• Blurring: Aplicada a dados numéricos. Utiliza %
randômico do valor do dado
• Anulação/Truncagem: Uso de valores nulos (NULL)
Modelos de Ataque
divulgação de identidade
divulgação de atributo
Modelos de Ataque
Ataque de ligação ao registro
Ataque de ligação ao atributo
Ataque de ligação à tabela
Ataque probabilístico
Ataque de Ligação de Registro
Ataque de Ligação ao Registro Tabela dos Proprietários de Veículos
na Tabela de Multas (Dados externos)
Data Número da Data
Nascimen Data Tipo de Valor da Placa Motorista CPF Nascimento
to Infração Infração Multa HXR 1542 Jose Pereira 258.568.856 14/03/1977
HTS 5864 Jorge Cury 566.845.684 04/03/1977
03/1977 01/2013 1 170,00
HUI 5846 Alice 845.681.945 24/04/1978
03/1977 01/2013 2 250,00 HTR 5874 Joatan Lima 954.685.975 20/04/1978
05/1977 01/2013 1 170,00 HOI 6845 Leonardo 986.587.324 22/05/1978
04/1978 01/2013 1 170,00 HQO 5846 Porfirio Silva 684.579.351 13/05/1978
05/1978 01/2013 2 250,00 HUY 8545 Leandro Sá 625.864.795 15/03/1985
05/1978 01/2013 2 250,00
05/1978 01/2013 1 170,00
ele pode inferir Bob sabe que

que o valor da Alice recebeu uma
multa paga foi de multa em janeiro
R$ 170,00
Ataque de Ligação de Atributo
Tabela de Multas
Data Tipo de Valor da
Nascimento Data Infração Infração Multa
03/1977 01/2013 1 170,00
03/1977 01/2013 2 250,00
05/1977 01/2013 1 170,00
04/1978 01/2013 1 170,00
05/1978 01/2013 2 250,00
05/1978 01/2013 2 250,00
05/1978 01/2013 1 170,00
ele pode inferir com 2/3 de Bob sabe que Alice

confiança que o valor da recebeu uma multa
multa paga por Alice foi de em janeiro. Ele
R$ 250,00 Sabe que Alice
Nasceu em 05/1978
Tabela dos Proprietários de Veículos (T)
Tabela (P) de Multas (Dados externos)
Data Data Tipo de Valor da Número da Data
Nascimento Infração Infração Multa Placa Motorista CPF Nascimento
03/1977 01/2013 1 170,00 HXR 1542 Jose Pereira 258.568.856 03/1977
03/1977 01/2013 2 250,00 HTS 5864 Jorge Cury 566.845.684 03/1977
05/1977 01/2013 1 170,00 HUI 5846 Paula Maria 845.681.945 05/1977
04/1978 01/2013 1 170,00 HTR 5874 Joatan Lima 954.685.975 05/1978
05/1978 01/2013 2 250,00 HOI 6845 Leonardo 986.587.324 05/1978
05/1978 01/2013 2 250,00 HQO 5846 Porfirio Silva 684.579.351 05/1978
05/1978 01/2013 1 170,00 HUY 8545 Leandro Sá 625.864.795 05/1978
A probabilidade do Sr. Leonardo estar

presente na tabela de multas é de 3/4 =
0,75, porque há 3 registros na tabela T
contendo a data de nascimento
"05/1978" e 4 registros na tabela P com
data de nascimento "05/1978"
k-anonymity
• combinação de atributos semi-identificadores
(grupo SI) seja compartilhada por pelo menos k
registros
• Um valor alto de k indica que o banco
anonimizado tem baixo risco de divulgação,
• Probabilidade de re-identificar um registro é de
1/k,
• Não protege o banco contra divulgação de
atributos.
k-anonymity
• Samarati e Sweeney [37] apresentam dois esquemas
de transformação dos dados por Generalização e
Supressão. O primeiro esquema substitui os valores de
atributos semi identificadores por valores menos
específicos, mas semanticamente consistentes, que os
representam. Ex. trocar números de CEP por código da
cidade.
• O segundo esquema é caso extremo de generalização
que anula alguns valores de semi identificadores ou até
mesmo exclui registros da tabela.
k-anonymity
• Fung et al [38] propõe discretizar os atributos
semi-identificadores que apresentem valores
contínuos, substituindo um intervalo de
valores por um intervalo que contenha estes
valores.
• Ex. substituir o preço dos produtos do
supermercado por uma faixa de valores
– [1 a 3],[4 a 7][8-10]
– [10-20],[21-40],[41-70],[71,100]
Tipos de ataques a k-anonymity
• Condição: dados anonimizados e disponibilizados
em várias tabelas contendo atributos diferentes,
mas a mesma quantidade de registros:
1. ataques baseados na ordem dos registros na
tabela anonimizada.
2. ataques baseados em ligações entre atributos
sensíveis ou não sensíveis de tabelas
anonimizadas.
3. ataques baseados em versões disponibilizadas
da tabela anonimizada em intervalos de tempo.
Ataques contra k-anonymity
ataque de homogeneidade
(Homogenity attack)
ataque de conhecimento prévio

(Background Knowledge attack)
(x,y)-anonymity
• Em k-anonymity cada registro representa
apenas um indivíduo.
• O modelo (x,y)-anonymity em que x e y
representam conjuntos de atributos disjuntos.
• Utilizado para tabelas que contém mais de 1
registro por indivíduo
Técnica: k-anonymity
SI = { data nascimento, data infração}
Exemplo K=2
Campos Identificadores: CPF, Número
da Placa e Nome Motorista (Supressão)
Dados Privados de Histórico de Infrações de Trânsito
Número da Data Tipo de Valor da

Placa Motorista CPF Nascimento Data Infração Infração Multa
HXR 1542 Jose Pereira 258.568.856 14/03/1977 03/01/2013 1 170,00
HTS 5864 Jorge Cury 566.845.684 04/03/1977 03/01/2013 2 250,00
HUI 5846 Paula Maria 845.681.945 24/05/1977 03/01/2013 1 170,00
HTR 5874 Joatan Lima 954.685.975 20/04/1978 04/01/2013 1 170,00
HOI 6845 Leonardo 986.587.324 22/05/1978 04/01/2013 2 250,00
HQO 5846 Porfirio Silva 684.579.351 13/05/1978 05/01/2013 2 250,00
HUY 8545 Leandro Sá 625.864.795 15/03/1985 05/01/2013 1 170,00
K=2
Exemplo Campos Identificadores: CPF, Número
da Placa e Nome Motorista (Supressão)
Número Data Data Tipo de Valor da

Registro Nascimento Infração Infração Multa
1 03/1977 01/2013 1 170,00
2 03/1977 01/2013 2 250,00
3 -excluido 05/1977 01/2013 1 170,00
4 -excluido 04/1978 01/2013 1 170,00
5 05/1978 01/2013 2 250,00
6 05/1978 01/2013 2 250,00
7 05/1978 01/2013 2 250,00
l-diversity
• captura o risco da descoberta de atributos
sensíveis no banco anonimizado.
• l-diversity requer que, para cada combinação
de atributos semi-identificadores (grupo SI),
deva existir pelo menos (l) valores "bem
representados“
• Definição não formal: “bem representados”?
• garante a existência de pelo menos l valores
de atributos sensíveis em cada grupo SI.
Tipos de divulgação em l-diversity
• a) divulgação positiva: adversário consegue

identificar registro corretamente pela falta de
diversidade dos atributos sensíveis
• b) divulgação negativa: adversário consegue,

com alta probabilidade de acerto, eliminar
corretamente valores prováveis de atributos
sensíveis.
Exemplo
Grupo SI ={03/1977,01/2013}
Data Data Tipo de Valor da

Nascimento Infração Infração Multa
03/1977 01/2013 1 170,00
03/1977 01/2013 2 250,00
03/1977 01/2013 1 170,00
03/1977 01/2013 1 170,00
03/1977 01/2013 2 250,00
03/1977 01/2013 2 250,00
03/1977 01/2013 2 250,00
L=2
Atributos sensíveis: Tipo Infração, Valor da Multa
l-diversity com valores distintos
• neste caso existem l valores distintos para cada
grupo SI.
• Um grupo SI pode ter um valor que apareça
mais frequentemente que outros valores,
possibilitando ao atacante re-identificar este
valor a uma entidade pertencente ao grupo SI.
• Este ataque chama-se ataque de probabilidade
de inferência.
l-diversity com entropia
• A entropia da tabela inteira deve ser pelo menos log(l)
• A entropia de cada grupo SI deve ser maior ou igual a
log(l).
• A entropia de cada grupo SI é definida pelo índice de
diversidade de Shannon:
• Entropia(SI) =   f (s) log( f (s))

sS
• onde f(s) é a fração de registros do grupo SI que

contem atributo sensível com valor igual a s.
Deficiências de l-diversity:
• Ninghui et al [41] apresenta alguns problemas
do modelo l-diversity:
• a) o modelo é limitado na pressuposição do
conhecimento do adversário sobre os atributos
sensíveis.
• Ex: não considera possibilidade de vazamento
de informações a partir da frequência da
distribuição global dos atributos
Deficiências de l-diversity:
• b) o modelo assume que todos os atributos
sensíveis são categorizados
• Desconsidera vazamento de informações por
valores aproximados.
• Segundo Ninghu et al, [41] l-diversity é
vulnerável a dois tipos de ataques:
– ataque de assimetria (Skewness attack) e
– ataque de similaridade (Similiarity attack).
Ataque de Simetria
• a) ataque de assimetria: ocorre quando existe
grande assimetria na distribuição dos valores
dos atributos sensíveis.
• Por exemplo um atributo com 2 valores em
que existe 99% de ocorrência de um valor e
1% de ocorrência do outro valor.
Ataque de Similaridade
• b) ataque de similaridade: ocorre quando os
valores em um grupo SI são distintos mas
semanticamente equivalentes.
• Por exemplo, o atributo salário poderia ser
discretizado por faixa de valores, mas as faixas de
valores mais altas indicariam que os indivíduos
ocupavam funções de chefia, enquanto faixas de
valores mais baixas poderiam indicar pessoas
recém contratadas que ocupavam funções
operacionais.
LKC-privacy
• Mohammed et al. [43] criaram o modelo LKC-
Privacy como uma proposta de solução para o
problema da alta dimensionalidade dos dados.
• Pressuposto: o atacante não possui todas as
informações dos atributos semi-identificadores
do seu alvo,
• Possui apenas conhecimento de pelo menos "L"
valores de atributos semi-identificadores.
Modelo LKC-privacy
• O modelo LKC-privacy assegura que existem:
• “L” grupos SI cada um com pelo menos
• “K” registros, onde a confiança da inferência de um
valor de um atributo sensível não seja maior do
que “C”
• Probabilidade de sucesso na identificação do
registro é menor ou igual a que 1/k
• Probabilidade de sucesso de descoberta de
atributo é menor ou igual a C, desde que o
conhecimento prévio do adversário não exceda L
LKC-Privacy generaliza modelos
tradicionais de k-anonimização
• k-anonymity é um caso especial de LKC-Privacy
onde L = Conjunto de Todos os Atributos semi-
identificadores, K = k e C = 100%
• l-diversity é um caso especial de LKC-Privacy

onde L= Conjunto de Todos os Atributos semi-
identificadores, K = 1 e C = 1/l
LKC-privacy
• LKC-Privacy é flexível para ajustar o dilema entre
privacidade de dados e utilidade de dados.
• Aumentando L e K ou diminuindo C pode-se
aumentar a privacidade as custas da perda de
utilidade dos dados
• LKC-Privacy é um modelo de privacidade geral
que evita ataques de ligação de registro e ligação
de atributos.
• É aplicável para anonimização de dados com ou
sem atributos sensíveis.
Exemplo
Tabela de Multas de Trânsito do Mês de Janeiro/2014
Identificadores Semi-identificadores Atributos Sensíveis
Número Data Tipo de Valor da
Id da Placa Motorista CPF Sexo Idade Infração Infração Multa
1 HXR 1542 Jose Pereira 258.568.856 Masculino 37 03/01/2013 1 170
2 HTS 5864 Paula Araujo 566.845.684 Feminino 22 30/01/2013 2 250
3 HUI 5846 Paula Maria 845.681.945 Feminino 37 03/01/2013 1 170
4 HTR 5874 Joatan Lima 954.685.975 Masculino 18 13/01/2013 1 170
5 HOI 6845 Leonardo Aires 986.587.324 Masculino 19 04/01/2013 2 250
6 HQO 5846 Porfirio Silva 684.579.351 Masculino 36 05/01/2013 2 250
7 HUY 8545 Maria de Sousa 625.864.795 Feminino 22 05/01/2013 1 170
8 NQL5564 Marta Alencar 625.864.795 Feminino 47 20/01/2013 1 170
Sexo Idade Data Infração

Domínio Domínio Domínio Domínio Domínio Domínio
Mapeamento
Inicial Final Inicial Final Inicial Final
entre domínios
Masculino M Número da [1-30] dd/mm/aaa mm/aaa
Idade a
Feminino F [30-60] 14/03/1967 03/1967
27 [1-30] 20/03/1967 03/1967
57 [1-60] 30/03/1967 03/1967
SI1 = { sexo,idade}
Exemplo SI2 = { sexo,data infracao}
SI3 = { idade,data infracao}
L = 2, K = 2, C = 50%
Semi-identificadores Atributos Sensíveis

Tipo de Valor da
Id Sexo Idade Data Infração Infração Multa
1 M [30-60] jan/13 1 170
2 F [1-30] jan/13 2 250
3 F [30-60] jan/13 1 170
4 M [1-30] jan/13 1 170
5 M [1-30] jan/13 2 250
6 M [30-60] jan/13 2 250
7 F [1-30] jan/13 1 170
8 F [30-60] jan/13 2 250
t-closeness
• Corrige algumas limitações de l-diversity, em
relação à proteção contra divulgação de atributo.
• O objetivo é limitar o risco de descoberta a um
nível aceitável.
• t-closeness utiliza o conceito de "conhecimento
global de retaguarda",
• Pressupõe que o adversário pode inferir
informações sobre atributos sensíveis, a partir do
conhecimento da frequência global de ocorrência
destes atributos na tabela.
t-closeness
• Ninghui et al. [41] sugere o uso da fórmula da
distância variacional para calcular a distância
entre
• P = {p1,p2,...pm} e
• Q = {q1,q2,...qm},
• definida pela medida Earth-Mover Distance

(EMD)
t-closeness
• Earth-Mover Distance (EMD) mede a
quantidade mínima de esforço necessário
para mover uma distribuição de massa entre
pontos de um espaço probabilístico.[44]
• O valor de EMD entre duas distribuições em
um espaço normalizado é um número entre 0
e 1.
• A fórmula EMD é apresentada a seguir:
m
1
D[ P, Q]   | pi  qi |
i 1 2
Exemplo
Frequência do Atributo "Tipo de Infração"
Tipo de Quant. Frequência Distribuição de Freq. do

Infração Registros Atributo na Tabela
1 1000 11% Q = {11%,11%,44%,33%}.
2 1000 11%
3 4000 44%
4 3000 33%
Total 9000 100%
A métrica t-closeness estima o risco de divulgação

computando a distância entre a distribuição de atributos
confidenciais dentro do grupo SI e o banco de dados inteiro.
Exemplo
Frequência do Atributo "Tipo de Infração"
Data Data Tipo de Distribuição de Freq. do

Nascimento Infração Infração Valor da Multa Atributo na Tabela
03/1977 01/2013 1 170,00 Q = {11%,11%,44%,33%}.
03/1977 01/2013 2 250,00
m
1
D[ P, Q]   | pi  qi |
03/1977 01/2013 1 170,00
03/1977 01/2013 1 170,00
i 1 2
03/1977 01/2013 2 250,00
03/1977 01/2013 2 250,00 D [P,Q] = 0,775 = 75%
O grupo SI = {03/1977,01/2013} da tabela contém apenas infrações

do tipo 1 e 2. A distribuição de frequência do atributo
"tipo de infração“ no grupo SI é P = {50%,50%,0%,0%}.
b-likeness
• Assegura que a confiança de um atacante no
valor de um atributo sensível não aumenta em
termos relativos, mais que um limite b pré-
estabelecido, depois que o atacante tem
conhecimento dos dados publicados.
b-likeness
• dada uma tabela T que contem atributos
sensíveis (sensitive attributes-SA),
• seja V = {v1,...,vm} o domínio de SA e
• P = {p1,...,pm} a distribuição global de SA em T.
• Uma classe de equivalência G com distribuição
de atributos sensíveis Q = (q1,...,qm) satisfaz um
limite básico b-likeness, se e somente se
max{D( pi , qi ) | pi  P, pi  qi }  b qi  pi
D( pi , qi ) 
pi
• onde b>0 é um limite e D é uma função de

distância entre pi e qi .
b-likeness
• A distância D deve ser grande o suficiente para
proteger os dados de ataques de assimetria
(Skewness attack) e de similaridade (Similiarity
attack).
• Usa da função de distância D para estabelecer o
limite de distância máximo, ao invés da
distância cumulativa entre os atributos
sensíveis.
• É utilizada uma medida relativa, ao invés das
medidas absolutas dos outros modelos
b-likeness
• Soluciona o problema da exposição de
privacidade de valores de atributos sensíveis
que ocorrem com menor frequência.
• Fornece um valor compreensível entre o limite
b e a privacidade proporcionada pelo modelo.
• Esta função representa um limite de proteção
de privacidade compreensível apenas se
(qi  pi ) / pi  b  qi  pi  (1  b) pi  (1  b)  1
• Valores de pi  1 /(1  b) devem ser monitorados
• Conceito:
• Este método utiliza duas partes: um cliente e um
servidor que armazena um banco de dados D
encriptado, onde o cliente que possui uma chave
de decriptação (trapdoor) Q e a utiliza para obter
o resultado da consulta Q(D) sem revelar o texto
e o resultado da consulta para o servidor.
• Fonte: Li, M., Yu, S., Ren, K., Lou, W., and Hou, Y.T.: ‘Toward privacy-assured
and searchable cloud data storage services’, Network, IEEE, 2013, 27, (4)
Tipologia Searchable Encryption (SE)
Comparação entre SE com chave
pública e chave privada
Criptografia de Criptografia de
chave simétrica chave pública
pesquisável pesquisável
Criado por uma Criado por
Construção do texto
chave secreta parâmetros
cifrado pesquisável
públicos
Gerenciamento da Usuário único Multiusuário
chave
Busca por um Busca por uma
palavra chave palavra chave e
Funcionalidade
decriptação parcial
dos dados
Desempenho Mais eficiente Menos eficiente
Fonte: Sedghi, S.: ‘Towards provably secure efficiently searchable
encryption’ (University of Twente, 2012. 2012
Comparação entre SE com chave
pública e chave privada
Criptografia de chave simétrica pesquisável:

não revela nenhuma informação além do
padrão de acesso aos dados.
Criptografia de chave pública pesquisável:

Permite que qualquer um obtenha uma chave
de decriptação para cada palavra consultada.
Sistemas de Busca Encriptada multi-
usuário
• Utiliza esquemas de criptografia de chave
pública pesquisável
• Tipo 1 : permite qualquer usuário armazenar

dados no servidor, mas somente um usuário
pode realizar buscas no banco de dados
• Tipo 2: permite qualquer usuário armazenar e

realizar buscas no banco de dados
Searchable Symmetric Encryption
Scheme (SSE)
• Definição Formal: Um esquema SSE é uma
coleção de 4 algoritmos de tempo polinomial:
• Keygen (1k)->msk
• BuildIndex(msk,D) -> Sw
• Trapdoor(msk,w)->Tw
• Search(Sw, Tw)
Searchable Symmetric Encryption
Scheme (SSE)
• Protocolos criptográficos
• Acesso anônimo a bases de dados públicas
• Dados não criptografados
• Protege a privacidade do usuário que está
acessando o banco de dados
Banco modelado como string de n-bits
Banco replicado entre k servidores não comunicantes.

O usuário possui um índice x (um inteiro entre 1 e n) e
se interessa em obter o valor do bit xi
Consultas aleatórias a cada servidor
Resultado da consulta obtido com respostas
Melhor protocolo PIR complexidade O(n1/3)
Problema: complexidade da comunicação

Tipos de Protocolos (PIR)
Esquema Information-
Theoretic
Esquema Computacional:
Processamento de função de interesse comum
Não revelar o conteúdo dos dados dos participantes
Apenas a saída da função é disponibilizada para todas as

partes.
Pode utilizar uma parte terceira confiável ou ser feita

pelos próprios integrantes do grupo.
• Definição Formal:
• n partes possuem entradas privadas x1, x2,
x3,…, xn respectivamente,
• e querem computar o valor de uma função
pública
• y = f(x1, x2, …, xn)
• Como fazer isto de forma privativa?

Protocolo SMC com Privacidade
• Para qualquer função f deve existir um SMC.
• Em muitos casos pode existir um problema
com múltiplas respostas corretas
• Objetivo: achar função computável em tempo
polinomial que resolva o problema
• Problema de vazamento de informação da
função para as partes envolvidas.
• Solução: impor requisitos de privacidade para
entradas e saídas da função
• Esquemas de compartilhamento de Segredo (SSS-
Secret Sharing Scheme) são utilizadas para
construir protocolos criptográficos, tais como o
SMC.
• Shamir’s Secret Sharing: está técnica propõe
dividir os dados em n partes, de modo que
possam ser recuperados a partir de qualquer k
partes, sendo k < n, mas que não revele nenhuma
informação a partir de k -1 partes dos dados.
Proposta para Privacidade de Dados na
Nuvem
• Anonimização por Decomposição.
• Objetivo: Obter confidencialidade para dados
armazenados na nuvem sem utilizar
criptografia. (dados em repouso)
• Anular desvantagens de geração e distribuição
de chaves criptográficas.
Adversário
• Provedor de nuvem semi-honesto que executa

os protocolos, mas que tenta obter
informação "extra" sobre os dados de outras
partes
Premissas
• Dados serão produzidos na nuvem ou transferidos para
a nuvem a partir dos dispositivos dos usuários.
• Dados serão processados na nuvem
• Dados serão armazenados na nuvem em locais
distintos.
• O acesso aos dados será realizado por um sistema de
identificação e autenticação de usuários.
• Os provedores são semi-honestos: executam os
protocolos, mas tem interesse em obter informação
extra sobre os dados
• O volume de dados que pode ser armazenado ou
processado é limitado apenas pela infraestrutura da
nuvem
Características da Proposta
• Categoria da Técnica : Fragmentação de
dados.
• Conceito: i-objeto: sequência de 256 bytes.
• Um arquivo digital é formado por 1 a N
i-objetos de informação
• Os i-objetos serão fragmentados em 2
arquivos: quantidade-qualidade.dec e
medida.dec
Conteúdo dos arquivos decompostos
• Quantidade-Qualidade.dec: informações sobre o
somatório da quantidade dos diversos bytes que
compõem o i-objeto.
• Medida.dec: informação sobre a ordem em que os
bytes estão presentes no i-objeto.
Etapas do Processo de
Armazenamento de Dados na Nuvem
Comentários Finais
• Privacidade é pré-condição para sucesso do
modelo de cloud computing.
• Segurança é pré-requisito para privacidade.
• As principais abordagens para garantir
confidencialidade de dados na nuvem utilizam
esquemas criptográficos.
• Criptografia não é adequada para proteção da
confidencialidade de dados armazenados na
nuvem.
Referências
1 Pearson, S.: ‘Privacy, Security and Trust in Cloud Computing’: ‘Privacy and Security for Cloud Computing’ (Springer, 2013), pp. 3-42
2 Liu, J., Xiao, Y., Li, S., Liang, W., and Chen, C.L.P.: ‘Cyber Security and Privacy Issues in Smart Grids’, Communications Surveys & Tutorials, IEEE, 2012, 14,
(4), pp. 981-997
3 Yang, X., Xuemin, S., Bo, S., and Lin, C.: ‘Security and privacy in RFID and applications in telemedicine’, Communications Magazine, IEEE, 2006, 44, (4),
pp. 64-72
4 Gruschka, N., and Jensen, M.: ‘Attack Surfaces: A Taxonomy for Attacks on Cloud Services’, in Editor (Ed.)^(Eds.): ‘Book Attack Surfaces: A Taxonomy for
Attacks on Cloud Services’ (2010, edn.), pp. 276-279
5 Spiekermann, S., and Cranor, L.F.: ‘Engineering Privacy’, Software Engineering, IEEE Transactions on, 2009, 35, (1), pp. 67-82
6 Jansen, W., and Grance, T.: ‘Guidelines on security and privacy in public cloud computing’, NIST Special Publication, 2011, pp. 800-144
7 Poullet, Y., Van Gyseghem, J.-M., Moiny, J.-P., Gérard, J., and Gayrel, C.: ‘Data protection in the clouds’: ‘Computers, privacy and data protection: an
element of choice’ (Springer, 2011), pp. 377-409
8 Winkler, V.J.: ‘Securing the Cloud: Cloud computer Security techniques and tactics’ (Elsevier, 2011. 2011)
9 Krutz, R.L., and Vines, R.D.: ‘Cloud security: A comprehensive guide to secure cloud computing’ (Wiley. com, 2010. 2010)
10 Chow, R., Golle, P., Jakobsson, M., Shi, E., Staddon, J., Masuoka, R., and Molina, J.: ‘Controlling data in the cloud: outsourcing computation without
outsourcing control’. Proc. Proceedings of the 2009 ACM workshop on Cloud computing security, Chicago, Illinois, USA2009 pp. Pages
11 Sedghi, S.: ‘Towards provably secure efficiently searchable encryption’ (University of Twente, 2012. 2012)
12 Hu, V.C., Ferraiolo, D., Kuhn, R., Friedman, A.R., Lang, A.J., Cogdell, M.M., Schnitzer, A., Sandlin, K., Miller, R., and Scarfone, K.: ‘Guide to attribute based
access control (ABAC) definition and considerations (draft)’, NIST Special Publication, 2013, 800, pp. 162
13 Sandhu, R.S., and Samarati, P.: ‘Access control: principle and practice’, Communications Magazine, IEEE, 1994, 32, (9), pp. 40-48
14 Auxilia, M., and Raja, K.: ‘A semantic-based access control for ensuring data security in cloud computing’, in Editor (Ed.)^(Eds.): ‘Book A semantic-based
access control for ensuring data security in cloud computing’ (2012, edn.), pp. 171-175
15 Ranganathan, V., and Venkataraman, G.P.: ‘Object Isolation for Cloud with DOMAIN RBAC’, in Editor (Ed.)^(Eds.): ‘Book Object Isolation for Cloud with
DOMAIN RBAC’ (2012, edn.), pp. 1-5
16 Ei Ei, M., and Thinn Thu, N.: ‘The privacy-aware access control system using attribute-and role-based access control in private cloud’, in Editor
(Ed.)^(Eds.): ‘Book The privacy-aware access control system using attribute-and role-based access control in private cloud’ (2011, edn.), pp. 447-451
17 Lan, Z., Varadharajan, V., and Hitchens, M.: ‘Trusted Administration of Large-Scale Cryptographic Role-Based Access Control Systems’, in Editor
(Ed.)^(Eds.): ‘Book Trusted Administration of Large-Scale Cryptographic Role-Based Access Control Systems’ (2012, edn.), pp. 714-721
18 Lingfeng, C., and Hoang, D.B.: ‘Novel Data Protection Model in Healthcare Cloud’, in Editor (Ed.)^(Eds.): ‘Book Novel Data Protection Model in
Healthcare Cloud’ (2011, edn.), pp. 550-555
19 Tang, B., Sandhu, R., and Li, Q.: ‘Multi-tenancy authorization models for collaborative cloud services’, in Editor (Ed.)^(Eds.): ‘Book Multi-tenancy
authorization models for collaborative cloud services’ (2013, edn.), pp. 132-138
Referências
20 van Renesse, R., Johansen, H., Naigaonkar, N., and Johansen, D.: ‘Secure Abstraction with Code Capabilities’, in Editor (Ed.)^(Eds.): ‘Book Secure
Abstraction with Code Capabilities’ (2013, edn.), pp. 542-546
21 Bo, T., Qi, L., and Sandhu, R.: ‘A multi-tenant RBAC model for collaborative cloud services’, in Editor (Ed.)^(Eds.): ‘Book A multi-tenant RBAC model for
collaborative cloud services’ (2013, edn.), pp. 229-238
22 Wang, L., Wijesekera, D., and Jajodia, S.: ‘A logic-based framework for attribute based access control’. Proc. Proceedings of the 2004 ACM workshop
on Formal methods in security engineering, Washington DC, USA2004 pp. Pages
23 Yuan, E., and Tong, J.: ‘Attributed based access control (ABAC) for Web services’, in Editor (Ed.)^(Eds.): ‘Book Attributed based access control (ABAC)
for Web services’ (2005, edn.), pp. 569
24 Zhiguo, W., Jun'e, L., and Deng, R.H.: ‘HASBE: A Hierarchical Attribute-Based Solution for Flexible and Scalable Access Control in Cloud Computing’,
Information Forensics and Security, IEEE Transactions on, 2012, 7, (2), pp. 743-754
25 Stojmenovic, I.: ‘Access Control in Distributed Systems: Merging Theory with Practice’, in Editor (Ed.)^(Eds.): ‘Book Access Control in Distributed
Systems: Merging Theory with Practice’ (2011, edn.), pp. 1-2
26 Hebig, R.N., Meinel, C., Menzel, M., Thomas, I., and Warschofsky, R.: ‘A Web Service Architecture for Decentralised Identity- and Attribute-Based
Access Control’, in Editor (Ed.)^(Eds.): ‘Book A Web Service Architecture for Decentralised Identity- and Attribute-Based Access Control’ (2009, edn.),
pp. 551-558
27 Nabeel, M., Shang, N., and Bertino, E.: ‘Privacy Preserving Policy Based Content Sharing in Public Clouds’, Knowledge and Data Engineering, IEEE
Transactions on, 2012, PP, (99), pp. 1-1
28 http://www.anu.edu.au/people/Roger.Clarke/DV/Intro.html
29 Duncan, G.T., Keller-McNulty, S.A., and Stokes, S.L.: ‘Disclosure risk vs. data utility: The RU confidentiality map’, in Editor (Ed.)^(Eds.): ‘Book Disclosure
risk vs. data utility: The RU confidentiality map’ (Citeseer, 2001, edn.), pp.
30 Camenisch, J., Crispo, B., Fischer-Hübner, S., Leenes, R., and Russello, G.: ‘Privacy and Identity Management for Life: 7th IFIP WG 9.2, 9.6/11.7, 11.4,
11.6 International Summer School, Trento, Italy, September 5-9, 2011. Revised Selected Papers’, in Editor (Ed.)^(Eds.): ‘Book Privacy and Identity
Management for Life: 7th IFIP WG 9.2, 9.6/11.7, 11.4, 11.6 International Summer School, Trento, Italy, September 5-9, 2011. Revised Selected
Papers’ (2012, edn.), pp.
31 Samarati, P.: ‘Protecting respondents identities in microdata release’, Knowledge and Data Engineering, IEEE Transactions on, 2001, 13, (6), pp. 1010-
1027
32 Keke, C., and Ling, L.: ‘Privacy preserving data classification with rotation perturbation’, in Editor (Ed.)^(Eds.): ‘Book Privacy preserving data
classification with rotation perturbation’ (2005, edn.), pp. 4 pp.
33 Aggarwal, C.C., and Philip, S.Y.: ‘A condensation approach to privacy preserving data mining’: ‘Advances in Database Technology-EDBT 2004’
(Springer, 2004), pp. 183-199
34 Muralidhar, K., and Sarathy, R.: ‘Security of random data perturbation methods’, ACM Transactions on Database Systems (TODS), 1999, 24, (4), pp.
487-493
Referências
35 Domingo-Ferrer, J.: ‘A survey of inference control methods for privacy-preserving data mining’: ‘Privacy-preserving data mining’ (Springer, 2008), pp.
53-80
36 Fung, B.C.M., Wang, K., Fu, A.W.-C., and Yu, P.S.: ‘Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques’ (Chapman \\&
Hall/CRC, 2010. 2010)
37 Machanavajjhala, A., Gehrke, J., Kifer, D., and Venkitasubramaniam, M.: ‘L-diversity: privacy beyond k-anonymity’, in Editor (Ed.)^(Eds.): ‘Book L-
diversity: privacy beyond k-anonymity’ (2006, edn.), pp. 24-24
38 Samarati, P., and Sweeney, L.: ‘Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and
suppression’, in Editor (Ed.)^(Eds.): ‘Book Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization
and suppression’ (Technical report, SRI International, 1998, edn.), pp.
39 Fung, B.C.M., Ke, W., and Yu, P.S.: ‘Anonymizing Classification Data for Privacy Preservation’, Knowledge and Data Engineering, IEEE Transactions on,
2007, 19, (5), pp. 711-725
40 Sweeney, L.: ‘k-anonymity: A model for protecting privacy’, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10,
(05), pp. 557-570
41 Wang, K., and Fung, B.C.M.: ‘Anonymizing sequential releases’. Proc. Proceedings of the 12th ACM SIGKDD international conference on Knowledge
discovery and data mining, Philadelphia, PA, USA2006 pp. Pages
42 Ninghui, L., Tiancheng, L., and Venkatasubramanian, S.: ‘t-Closeness: Privacy Beyond k-Anonymity and l-Diversity’, in Editor (Ed.)^(Eds.): ‘Book t-
Closeness: Privacy Beyond k-Anonymity and l-Diversity’ (2007, edn.), pp. 106-115
43 Aggarwal, C.C.: ‘On k-anonymity and the curse of dimensionality’, in Editor (Ed.)^(Eds.): ‘Book On k-anonymity and the curse of dimensionality’ (VLDB
Endowment, 2005, edn.), pp. 901-909
44 Mohammed, N., Fung, B.C.M., Hung, P.C.K., and Lee, C.-k.: ‘Anonymizing healthcare data: a case study on the blood transfusion service’. Proc.
Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, Paris, France2009 pp. Pages
45 Liang, H., and Yuan, H.: ‘On the complexity of t-closeness anonymization and related problems’, in Editor (Ed.)^(Eds.): ‘Book On the complexity of t-
closeness anonymization and related problems’ (Springer, 2013, edn.), pp. 331-345
46 Cao, J., and Karras, P.: ‘Publishing microdata with a robust privacy guarantee’, Proc. VLDB Endow., 2012, 5, (11), pp. 1388-1399
47 Nergiz, M.E., Atzori, M., and Clifton, C.: ‘Hiding the presence of individuals from shared databases’, in Editor (Ed.)^(Eds.): ‘Book Hiding the presence
of individuals from shared databases’ (ACM, 2007, edn.), pp. 665-676
48 Dwork, C.: ‘Differential privacy’: ‘Automata, languages and programming’ (Springer, 2006), pp. 1-12
49 Sayi, T.J.V.R.K., Krishna, R.K.N.S., Mukkamala, R., and Baruah, P.K.: ‘Data Outsourcing in Cloud Environments: A Privacy Preserving Approach’, in
Editor (Ed.)^(Eds.): ‘Book Data Outsourcing in Cloud Environments: A Privacy Preserving Approach’ (2012, edn.), pp. 361-366
Referências
50 Wang, W., Li, Z., Owens, R., and Bhargava, B.: ‘Secure and efficient access to outsourced data’. Proc. Proceedings of the 2009 ACM workshop on
Cloud computing security, Chicago, Illinois, USA2009 pp. Pages
51 Ciriani, V., De Capitani di Vimercati, S., Foresti, S., Jajodia, S., Paraboschi, S., and Samarati, P.: ‘Selective data outsourcing for enforcing privacy’,
Journal of Computer Security, 2011, 19, (3), pp. 531-566
52 Tian, M., and Zhang, Y.: ‘Analysis of cloud computing and its security’, in Editor (Ed.)^(Eds.): ‘Book Analysis of cloud computing and its security’ (2012,
edn.), pp. 379-381
53 Chen, F., Wu, K., Chen, W., and Zhang, Q.: ‘The Research and Implementation of the VPN Gateway Based on SSL’, in Editor (Ed.)^(Eds.): ‘Book The
Research and Implementation of the VPN Gateway Based on SSL’ (2013, edn.), pp. 1376-1379
54 Atighetchi, M., Soule, N., Pal, P., Loyall, J., Sinclair, A., and Grant, R.: ‘Safe configuration of TLS connections’, in Editor (Ed.)^(Eds.): ‘Book Safe
configuration of TLS connections’ (2013, edn.), pp. 415-422
55 (WSS), W.S.S.: ‘Web Services Security: 4 SOAP Message Security 1.1 ’, 2006, pp. 76
56 Bracci, F., Corradi, A., and Foschini, L.: ‘Database security management for healthcare SaaS in the Amazon AWS Cloud’, in Editor (Ed.)^(Eds.): ‘Book
Database security management for healthcare SaaS in the Amazon AWS Cloud’ (2012, edn.), pp. 000812-000819
57 Stefanov, E., and Shi, E.: ‘ObliviStore: High Performance Oblivious Cloud Storage’, in Editor (Ed.)^(Eds.): ‘Book ObliviStore: High Performance
Oblivious Cloud Storage’ (2013, edn.), pp. 253-267
58 Li, M., Yu, S., Ren, K., Lou, W., and Hou, Y.T.: ‘Toward privacy-assured and searchable cloud data storage services’, Network, IEEE, 2013, 27, (4)
59 Kan, Y., Xiaohua, J., Kui, R., and Bo, Z.: ‘DAC-MACS: Effective data access control for multi-authority cloud storage systems’, in Editor (Ed.)^(Eds.):
‘Book DAC-MACS: Effective data access control for multi-authority cloud storage systems’ (2013, edn.), pp. 2895-2903
60 Jung, T., Li, X.-y., Wan, Z., and Wan, M.: ‘Privacy preserving cloud data access with multi-authorities’, in Editor (Ed.)^(Eds.): ‘Book Privacy preserving
cloud data access with multi-authorities’ (2013, edn.), pp. 2625-2633
61 Nimgaonkar, S., Kotikela, S., and Gomathisankaran, M.: ‘CTrust: A Framework for Secure and Trustworthy Application Execution in Cloud Computing’,
in Editor (Ed.)^(Eds.): ‘Book CTrust: A Framework for Secure and Trustworthy Application Execution in Cloud Computing’ (2012, edn.), pp. 24-31
62 Ching-Hung, Y.: ‘A Secure Shared Group Model of Cloud Storage’, in Editor (Ed.)^(Eds.): ‘Book A Secure Shared Group Model of Cloud Storage’ (2013,
edn.), pp. 663-667
63 Backes, M., Kate, A., Maffei, M., and Pecina, K.: ‘ObliviAd: Provably Secure and Practical Online Behavioral Advertising’, in Editor (Ed.)^(Eds.): ‘Book
ObliviAd: Provably Secure and Practical Online Behavioral Advertising’ (2012, edn.), pp. 257-271
64 Ning, C., Cong, W., Ming, L., Kui, R., and Wenjing, L.: ‘Privacy-Preserving Multi-Keyword Ranked Search over Encrypted Cloud Data’, Parallel and
Distributed Systems, IEEE Transactions on, 2014, 25, (1), pp. 222-233
65 Slamanig, D., and Hanser, C.: ‘On cloud storage and the cloud of clouds approach’, in Editor (Ed.)^(Eds.): ‘Book On cloud storage and the cloud of
clouds approach’ (2012, edn.), pp. 649-655
66 Hegel, G.W.F.: ‘Enciclopédia das ciências filosóficas II-Filosofia da natureza’ (Edicoes Loyola, 1995. 1995)

Minicurso SBBD2014

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Minicurso SBBD2014

Enviado por

Direitos autorais:

Formatos disponíveis

Estratégias para Proteção da

Privacidade de Dados Armazenados

“…expect that the thousands of social media

Searchable Encryption (SE)

Private Information retrieval (PIR)

Secure Multiparty Computation (SMC)

– Random Data Perturbation (RDP) : adiciona ruído

Ataque de ligação ao registro

Ataque de ligação ao atributo

Ataque de ligação à tabela

ele pode inferir Bob sabe que

ele pode inferir com 2/3 de Bob sabe que Alice

A probabilidade do Sr. Leonardo estar

ataque de conhecimento prévio

Dados Privados de Histórico de Infrações de Trânsito

Número da Data Tipo de Valor da

Número Data Data Tipo de Valor da

• a) divulgação positiva: adversário consegue

• b) divulgação negativa: adversário consegue,

Data Data Tipo de Valor da

• Entropia(SI) =   f (s) log( f (s))

• onde f(s) é a fração de registros do grupo SI que

• l-diversity é um caso especial de LKC-Privacy

Sexo Idade Data Infração

Semi-identificadores Atributos Sensíveis

• definida pela medida Earth-Mover Distance

Tipo de Quant. Frequência Distribuição de Freq. do

A métrica t-closeness estima o risco de divulgação

Data Data Tipo de Distribuição de Freq. do

O grupo SI = {03/1977,01/2013} da tabela contém apenas infrações

• onde b>0 é um limite e D é uma função de

Criptografia de chave simétrica pesquisável:

Criptografia de chave pública pesquisável:

• Tipo 1 : permite qualquer usuário armazenar

• Tipo 2: permite qualquer usuário armazenar e

Banco replicado entre k servidores não comunicantes.

Resultado da consulta obtido com respostas

Melhor protocolo PIR complexidade O(n1/3)

Problema: complexidade da comunicação

Processamento de função de interesse comum

Não revelar o conteúdo dos dados dos participantes

Apenas a saída da função é disponibilizada para todas as

Pode utilizar uma parte terceira confiável ou ser feita

• Como fazer isto de forma privativa?

• Provedor de nuvem semi-honesto que executa

Você também pode gostar