Você está na página 1de 104

ASPECTOS TCNICOS E LEGAIS DA COLETA E

ANONIMIZAO DE TRFEGO DE REDES IP

MARCO AURLIO VILAA DE MELO

ASPECTOS TCNICOS E LEGAIS DA COLETA E


ANONIMIZAO DE TRFEGO DE REDES IP
Dissertao apresentada ao Programa de
Ps-Graduao em Cincia da Computao
do Instituto de Cincias Exatas da Universidade Federal de Minas Gerais como requisito parcial para a obteno do grau de
Mestre em Cincia da Computao.

Orientador: Dorgival Olavo Guedes Neto

Belo Horizonte
Setembro de 2009

2009, Marco Aurlio Vilaa de Melo.


Todos os direitos reservados.

M528a

Melo, Marco Aurlio Vilaa de


Aspectos Tcnicos e Legais da Coleta e
Anonimizao de Trfego de Redes IP / Marco Aurlio
Vilaa de Melo.  Belo Horizonte, 2009
xx, 84 f. : il. ; 29cm
Dissertao (mestrado)  Universidade Federal de
Minas Gerais
Orientador: Dorgival Olavo Guedes Neto
1. Redes de Computao - Protocolos - Tese.
2. Redes de Computao - Direito Privacidade - Tese.
3. Redes de Computao - Medidas de Segurana Tese. 4. Anonimizao - Tese. 5. Logs - Tese. I. Ttulo.
CDU 519.6*22(043)

Deus, responsvel por mais essa vitria.


Aos meus lhos, Matheus e Mariana pelo amor incondicional.
Greisiele, pela dedicao e amor.
minha me, pelo apoio irrestrito.
Ao Prof. Dorgival pela ajuda e pacincia.
Ao meu pai, irmos, familiares e amigos pelas palavras de apoio e amizade.

vii

Resumo
Pesquisadores e administradores de rede encontram-se frente a um dilema ao trabalhar
com arquivos de dados de trfego coletado: como extrair informaes teis para seu
trabalho, mas ainda garantir a privacidade dos usurios, cujas informaes trafegam
pela rede, e evitar o vazamento de informaes sensveis sobre a segurana da mesma?
Este trabalho faz um estudo sobre aspectos de privacidade e segurana no uso
e compartilhamento de arquivos de registro de trfego de rede (logs e prope uma
metodologia para anlise do processo de anonimizao de arquivos.
Inicialmente explicada a necessidade crescente de se utilizar arquivos de log para
as pesquisas sobre melhorias na Internet ou auditorias, mostrando em seguida os riscos
que o uso e o compartilhamento desses arquivos pode acarretar para a privacidade dos
usurios e a segurana da rede. Em seguida, analisamos as leis existentes em alguns
pases sobre a privacidade de dados e das comunicaes eletrnicas, dando uma idia
da sua evoluo histrica. No Brasil, so analisadas as leis existentes e alguns projetos
e tramitao no congresso nacional, sendo apontadas as implicaes legais que o uso
desses arquivos pode ocasionar para usurios e administradores de redes.
Finalmente feita uma anlise dos principais protolocos da arquitetura TCP/IP
com vistas anonimizao, indenticando quais campos daqueles protocolos podem
revelar informaes que afetem segurana da rede ou a privacidade dos usurios. Com
base nessa informao, apresentado um estudo das principais tcnicas e ferramentas
de anonizao de dados e, por m, feita a especicao de uma metodologia para
anlise dos arquivos anonimizados que complementada com a descrio do prottipo
da ferramenta baseada nesta metodologia.

ix

Abstract
Researchers and network administrators face a dicult dilemma when they work with
trac data les collected from the network: how to extract useful information for
their work and yet to guarantee the privacy of users, whose information travel through
the network, and prevent the leakage of sensitive information that may compromize
network security?
This work presents a study of aspects of privacy and safety in the use and sharing
of network trac log les, and proposes a methodology for the analysis of the le
anonimization process.
First we explain the reasons for the increasing need for the use of log les in
network research and audits, showing the risks that the use and sharing of such les
may carry for the privacy of users and the safety of the network. Next we discuss the
existing laws in some major countries that deal with the privacy of data and electronic
communications, showing their evolution over time. In Brazil, we discuss the current
laws and some proposed projects being considered in Congress and their implication
to users and network providers.
Finally, we analyze the major protocols of the TCP/IP architecture in relation
to anonimization, identifying which protocol elds may reveal information sensitive to
network safety or user privacy. Based on that analysis we present a discussion of the
major tools and techniques for data anonimization and propose a methodology for the
analysis of the quality of anonimization, which we complete with the description of a
prototype based on that methodology.

xi

Lista de Figuras
2.1

Pilha de Protocolos TCP/IP . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.2

Encapsulamento de dados na arquitetura TCP/IP . . . . . . . . . . . . . .

12

2.3

Formas de coleta de trfego: a) interceptao; b) espelhamento . . . . . . .

17

2.4

Exemplo de informao mostrada pelo ntop . . . . . . . . . . . . . . . . .

20

2.5

Exemplo de informao mostrada pelo wireshark . . . . . . . . . . . . . .

20

4.1

Camadas TCP/IP e alguns de seus protocolos . . . . . . . . . . . . . . . .

42

4.2

Cabealho do pacote TCP . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.3

Cabealho do pacote IPv4P . . . . . . . . . . . . . . . . . . . . . . . . . .

47

5.1

Funcionamento da Ferramenta Proposta . . . . . . . . . . . . . . . . . . .

65

5.2

Relatrios do Prottipo: a) Quantidade de pacotes por protocolo; b) Endereos de hardware e endereos IP no anonimizados . . . . . . . . . . . . .

xiii

71

Lista de Tabelas

xv

Sumrio
Resumo

ix

Abstract

xi

Lista de Figuras

xiii

Lista de Tabelas

xv

1 Introduo

1.1

Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

Contribuio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4

Organizao do restante do texto . . . . . . . . . . . . . . . . . . . . .

2 Conceitos e Trabalhos Relacionados

2.1

Privacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Anonimizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Ataques Utilizando Logs . . . . . . . . . . . . . . . . . . . . . . . . . .

2.4

Arquitetura TCP/IP . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.5

Processo de Coleta e Anlise de Dados . . . . . . . . . . . . . . . . . .

14

2.5.1

Tipos de coleta . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.5.2

O processo de coleta . . . . . . . . . . . . . . . . . . . . . . . .

16

2.5.3

Discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.6

Ferramentas de anonimizao . . . . . . . . . . . . . . . . . . . . . . .

21

2.7

Outros Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . .

23

3 Aspectos Legais

25

3.1

Unio Europia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.2

Amrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

xvii

3.3

Brasil

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3.3.1

Legislao em Vigor . . . . . . . . . . . . . . . . . . . . . . . .

31

3.3.2

Projetos de Lei em Tramitao . . . . . . . . . . . . . . . . . .

36

4 Aspectos Tcnicos
4.1

4.2

41

Aspectos relacionados anonimizao na arquitetura TCP/IP . . . . .

41

4.1.1

Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

4.1.2

Transporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.1.3

Camada de Rede . . . . . . . . . . . . . . . . . . . . . . . . . .

47

4.1.4

Camada de Tecnologia de Rede Local . . . . . . . . . . . . . . .

52

Tcnicas de Anonimizao de Dados . . . . . . . . . . . . . . . . . . .

53

4.2.1

Substituio por Black Marker

. . . . . . . . . . . . . . . . . .

54

4.2.2

Substituio Aleatria . . . . . . . . . . . . . . . . . . . . . . .

54

4.2.3

Criptograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

4.2.4

Deslocamento . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

4.2.5

Preservao de prexos . . . . . . . . . . . . . . . . . . . . . . .

55

4.3

Anonimizao de Endereos IP

. . . . . . . . . . . . . . . . . . . . . .

56

4.4

Ferramentas de Anonimizao . . . . . . . . . . . . . . . . . . . . . . .

57

4.4.1

Tcpdpriv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

4.4.2

Crypto-Pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

4.4.3

Tcpmkpub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

4.4.4

Framework for Log Anonymization and Information Manage-

4.5

ment (FLAIM) . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

5 Metodologia Proposta

63

5.1

Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

5.2

Fases da Metologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

5.2.1

Identicao dos Pares dos Pacotes . . . . . . . . . . . . . . . .

64

5.2.2

Camada de Tecnologia de Rede Local . . . . . . . . . . . . . . .

66

5.2.3

Camada de Rede . . . . . . . . . . . . . . . . . . . . . . . . . .

66

5.2.4

Transporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

5.2.5

Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

5.2.6

Anlise da anonimizao de endereos . . . . . . . . . . . . . . .

68

5.3

Prottipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

5.4

Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

6 Concluso e Trabalhos Futuros

75
xviii

Referncias Bibliogrcas

79

xix

Captulo 1
Introduo
Nos ltimos anos o mundo presenciou um grande crescimento no uso da Internet,
no Brasil, a cada dia aumenta o nmero de usurios conectados rede mundial de
computadores 1 . Alm disso, houve tambm uma grande diversicao nas aplicaes
disponveis atravs dessa rede. Todo esse crescimento se traduz em trfego de rede,
mensagens que circulam pelos canais da rede. Esse trfego, alm de seu interesse
indireto para os usurios, que desejam obter informaes da rede, de grande interesse
para duas comunidades ligadas rea de redes de computadores: pesquisadores e
administradores de sistema.
Pesquisadores buscam entender o comportamento dos usurios e o impacto das
diferentes aplicaes sobre a infra-estrutura de rede, a m de propr novas solues
que garantam a contnua evoluo dos servios e a escalabilidade dos recursos da
rede. Atravs da anlise do padro de acesso a pginas web, por exemplo, pesquisadores foram capazes de identicar a ocorrncia frequente de acessos a pginas populares e propuseram solues para reduzir a carga na rede usando mecanismos de

caches [Rabinovich & Spatscheck, 2002]. Pela anlise de trfego, pesquisadores so


tambm capazes de melhor entender o comportamento de novas aplicaes como aquelas de compartilhamento de arquivos em redes peer-to-peer [Arthur & Panigrahy, 2006]
e de identicar o comportamento de disseminadores de mensagens de spam por correio eletrnico [Steding-Jessen et al., 2008], podendo assim sugerir tcnicas para seu
controle.
Assim sendo, as informaes obtidas atravs da monitorao de funes da rede
so importantes para a evoluo da pesquisa na rea de rede [Bianchi et al., 2008b;
Burkhart et al., 2008b; Pang & Paxson, 2003]. Nos ltimos anos esses dados esto
ganhando ainda maior importncia; algumas conferncias, por exemplo, para aceitao
1 http://g1.globo.com/Noticias/Tecnologia/0

MUL1274233-6174,00.html

Captulo 1. Introduo

de artigos, esto exigindo que os dados utilizados na pesquisa sejam disponibilizados


para a comunidade cientca. Outro elemento que desperta grande interesse nessas
informaes a necessidade de se ter grandes massas de dados para testes de novas
tecnologias, dando maior credibilidade pesquisa. Para esses ns pesquisadores esto,
cada vez mais, compartilhando os dados coletados por eles entre si.
Administradores de sistemas em rede precisam coletar e armazenar certas informaes contidas no trfego para ns de registro histrico das atividades da rede,
para a identicao de comportamentos maliciosos na rede que possam indicar abusos ou ataques infra-estrutura e servios sob sua responsabilidade e para ns de
auditoria[Bishop et al., 2006]. Certas organizaes exigem que se mantenha registros
dos momentos de conexo e desconexo de cada usurio do sistema, incluindo-se dados sobre suas atividades enquanto conectados. Para ns de planejamento estratgico,
muitas vezes administradores se valem da coleta de trfego para entender a evoluo
do uso da sua rede e desenvolver seus planos de expanso. Em outros momentos, a
coleta e inspeo de trfego uma ferramenta essencial no combate a invasores que
tentam acessar mquinas dentro da rede de uma organizao, seja para obter informaes condenciais, seja para utiliz-las como intermedirias no lanamento de outros
ataques rede.
Exigncias de coleta por parte dos administradores de redes vm sendo, inclusive,
objeto de algumas propostas de legislao em vrios pases e inclusive no Congresso
Nacional Brasileiro [Senado Federal, 2008]. Cada vez mais, elementos de auditoria
interna de empresas e at mesmo percia criminal dependem de dados coletados em
mquinas ou no trfego de redes, de forma semelhante ao que ocorre com relao ao
registro de ligaes telefnicas.
Pelos motivos apresentados, a anlise das informaes obtidas atravs da monitorao do trfego se torna cada vez mais importante. Esses dados de trfego so
obtidos atravs da monitorao direta dos canais e interfaces fsicas da rede, de onde
se pode obter uma cpia de cada pacote de dados que passam por eles em qualquer
direo, bem como do registro detalhado da operao de alguns servidores da rede (por
exemplo, as requisies feitas a um servidor web ou as mensagens recebidas por um
servidor de correio eletrnico).
Apesar de sua importncia, a coleta de trfego tem implicaes complexas, por
poder incluir inclusive os dados dos usurios que trafegam durante sua interao com
servidores e outros usurios da rede. Ao coletar o trfego de uma rede, pode-se ter
acesso ao contedo de mensagens de correio enviadas por cada usurio, identicar as
pginas da Web visitadas por eles, acompanhar suas atividades em um site de comrcio
eletrnico ou suas interaes com outros usurios em um site social como o Orkut.

1.1.

Motivao

Com exigncias como as mencionadas anteriormente para a publicao e troca


dos dados de medio de redes se tornando prticas constantes, algumas questes se
tornam cada vez mais frequentes: Como disponibilizar essas informaes sem prejudicar
a segurana da rede? O que fazer para garantir a privacidade dos usurios da rede,
quando dados precisam ser distribudos para ns de pesquisa ou de uma auditoria,
por exemplo? legal/tico o uso desses dados sem nenhuma forma de tratamento
para se garantir a privacidade dos usurios? Como devemos proceder para viabilizar
a utilizao desses dados na pesquisa ou para ns administrativos (ou mesmo legais)
sem afetar a segurana e/ou a privacidade dos inocentes envolvidos?
Discusses como essas se tornam cada vez mais frequentes e necessrias, pois
as pessoas tm se tornado mais conscientes desses problemas e, por consequncia, se
tornam mais preocupadas com as suas informaes que transitam na rede. Alm disso,
a rea jurdica comea a se preocupar com os impactos que o mundo virtual causa
nas relaes jurdicas. Um dos focos dessa preocupao o quanto a privacidade
garantida quando se usa esses dados em pesquisas.
Diante desse quadro, vrias tcnicas e ferramentas para tornar annimos os dados de rede tm sido propostas tentando garantir um determinado nvel de privacidade
aos dados distribudos e, ao mesmo tempo, preservando as principais informaes necessrias para a pesquisa e a segurana de rede. Essas ferramentas fazem a chamada
anonimizao, que a tcnica de excluir as informaes considerados sensveis privacidade de determinado tipo de dado, proporcionando assim, uma maior tranquilidade
e liberdade aos pesquisadores, auditores e investigadores, na utilizao e compartilhamento dos dados utilizados por eles.
Tendo isso em mente, torna-se necessrio um estudo para entender as implicaes
legais e analisar as vrias tcnicas e ferramentas de anonimizao de dados existentes,
para conrmar se elas satisfazem as exigncias de privacidade enquanto mantm as
informaes teis para cada m. Pang et al. [Pang et al., 2006] enfatizam a necessidade
de uma ferramenta que analise os dados anonimizados para vericar se os mesmos esto
realmente de acordo com determinada poltica de anonimizao, dando uma maior
conabilidade e segurana ao se disponibilizar dados de redes. nesse contexto que se
insere o trabalho aqui apresentado.

1.1 Motivao
Garantir que o dado anonimizado realmente possui o nvel esperado de anonimizao
um problema de difcil soluo, pois existem diversas questes sobre a anonimizao

Captulo 1. Introduo

que despertam opinies conitantes, tanto na rea jurdica, quanto na rea tcnica. Por
exemplo, a divulgao do tipo e verso do sistema operacional de uma determinada
mquina considerada um risco por alguns administradores, enquanto no o por
outros. Do ponto de vista jurdico, em certos casos a divulgao das pginas acessadas
a partir de determinada mquina no causa nenhum constrangimento, enquanto em
outros fere gravemente a privacidade.
Considere-se por exemplo, um administrador que abordado por um pesquisador
que deseja uma amostra de trfego da rede a m de avaliar uma hiptese de pesquisa.
Ou ainda, imaginem um diretor de uma universidade que procura o administrador da
rede para discutir sobre a possibilidade da universidade rmar um convnio com um
grupo de universidades, para passar a disponibilizar os dados de conexo de rede da
universidade para toda a essa comunidade cientca e, em troca, receber todos os dados
dessa comunidade. Nesse caso, para garantir a condencialidade e segurana da rede,
o administrador dever no s usar uma determinada ferramenta de anonimizao de
dados, mas dever tambm usar uma poltica de anonimizao pr-denida para que os
dados tivessem o mesmo padro e nvel de qualidade dos dados disponibilizados pelas
outras instituies.
O administrador pode at ter interesse no tipo de resultado da pesquisa, ou na
possibilidade de ter acesso aos dados de outras universidades conveniadas para as pesquisas que elas desenvolvem, mas no deveria fornecer os dados se no tivesse garantias
de que a privacidade dos seus usurios no seria violada em relao ao que exige a lei.
Para esse m, importante que o administrador saiba quais so as informaes sensveis do ponto de vista da privacidade/segurana e as exigncias e restries legais
envolvidas, bem como entenda o que oferecem as diversas ferramentas e tcnicas de
anonimizao existentes.
Diante de situaes similares a essa, torna-se necessria uma metodologia que
valide determinada anonimizao segundo um certo critrio, por exemplo, garantir que
no haja alguma forma de inferir que os endereos anonimizados das mquinas sejam
mapeados para determinados endereos IP reais. Ou ainda, conrmar que determinado dado anonimizado manteve as mesmas caractersticas (por exemplo, distribuio
estatstica) que constam nos dados originais. Ou tambm, se possvel determinar o
sistema operacional de um servidor especco a partir dos dados anonimizados.

1.2.

Objetivos

1.2 Objetivos
Com base no exposto at aqui, o objetivo principal desta dissertao oferecer elementos que auxiliem os administradores de sistemas em rede a decidir sobre a liberao de
informaes sobre trfego de rede considerando aspectos de privacidade e anonimato
de seus usurios. De forma mais detalhada, este trabalho tem os seguintes objetivos
especcos:

analisar a legislao existente sobre privacidade de dados em alguns pases. No


Brasil, sero analisadas as leis existentes bem como os principais projetos de lei
que tramitam no nosso legislativo.

identicar os principais elementos de informao contidos no trfego de rede da


Internet e discutir o impacto desses sobre a privacidade dos usurios e segurana
de uma rede;

identicar as principais ferramentas e tcnicas de anonimizao de dados de conexo de rede, confrontando-as com os vrios tipos de ataques a estas tcnicas.
propor uma metodologia que avalie o grau de anonimato de uma tcnica de
anonimizao que precise ser avaliada por um administrador de rede.

1.3 Contribuio
As principais contribuies deste trabalho endeream diretamente os objetivos especcos mencionados.

O captulo 3 apresenta uma discusso dos aspectos legais segundo a legislao


brasileira especca, ainda incipiente na rea de comunicao de dados, e com
base no material legal j desenvolvido para outros meios de comunicao que
pode ser co-relacinado com a rea de dados de rede. Esse captulo tambm
discute elementos da legislao dos EUA e da Unio Europia, mais desenvolvida
nessa rea.

O captulo 4 apresenta uma anlise detalhada dos principais protocolos da arquitetura da Internet (a arquitetura TCP/IP), discutindo a informao normalmente
disponvel em cada campo desses protocolos e sua implicao para a obteno de
dados que possam afetar o anonimato/privacidade dos usurios e a segurana da
rede, bem como uma descrio das principais tcnicas e ferramentas de anonimizao disponveis, suas qualidades e limitaes.

Captulo 1. Introduo

O captulo 5 apresenta a metodologia e um prottipo da ferramenta de vericao


proposta, que permitir aos administradores de sistemas em rede analisar o efeito
da aplicao de uma certa tcnica ou ferramenta de anonimizao externa sobre
um arquivo de trfego coletado. Com base nessa anlise seria possvel avaliar se
as restries de anonimato que devem ser observadas pelo administrador esto
sendo atendidas no processo de gerao do arquivo de dados a ser disponibilizado.

1.4 Organizao do restante do texto


Nos captulos seguintes, apresentamos primeiramente, no captulo 2, os principais conceitos relacionados ao anonimato, formas de reverter a anonimizao de dados, aspectos
legais relacionados a coleta e anlise de dados de rede e conceitos tcnicos sobre a arquitetura TCP/IP, coleta e anonimizao de trfego. Em seguida, os captulos 3, 4
e 5 apresentam as contribuies j mencionadas. Finalmente, o captulo 6 apresenta
as concluses da dissertao e sugestes para trabalhos futuros.

Captulo 2
Conceitos e Trabalhos Relacionados
A m de compreendermos melhor os diversos aspectos relacionados anonimizao
de arquivos de trfego de rede e desenvolvermos as contribuies deste trabalho
importante discutirmos os conceitos gerais de privacidade, anonimizao, aspectos de
segurana de rede, as caractersticas da arquitetura TCP/IP, utilizada na Internet atual
e que determina qual informao acompanha cada pacote de dados na rede, algumas
das principais ferramentas de anonimizao de trfego existentes e outros trabalhos
relacionados que meream destaque. Para esse m, as sees seguintes discutem cada
um desses tpicos em mais detalhes.

2.1 Privacidade
A privacidade um termo subjetivo e por isso de difcil denio, pois o seu conceito e
amplitude variam de pessoa para pessoa; por exemplo, ter seu nome impresso em uma
lista telefnica pode representar uma invaso de privacidade para um cantor famoso,
que no gostaria de ter seu nome e telefone divulgados a todos. Por outro lado, um
prestador de servios autnomo provavelmente ir considerar essa divulgao benca
para os seus negcios. Por causa desses diferentes sentimentos quanto privacidade,
os autores divergem entre conceitos amplos e restritos.
Warren & Brandeis [1890] diz que a privacidade um direito de estar s, conceituando o tpico de forma simples e restrita. J a dimenso desse conceito ampliado
por Jos Afonso da Silva [Silva, 1997], ao dizer que a nossa Constituio assegura direito indenizao por dano material ou moral decorrente da violao da intimidade,
da vida privada, da honra e da imagem das pessoas, em suma, do direito privacidade.
Nos pases democrticos o direito privacidade considerado um direito fundamental
e protegido por lei.
7

Captulo 2. Conceitos e Trabalhos Relacionados

Com a evoluo das tecnologia esse direito passa a car mais fragilizado, pois
a cada dia cresce o nmero de cmeras de segurana, de empresas com cadastros
informatizados de clientes, etc. A partir disso, o conceito de privacidade comea a
englobar tambm os dados, surgindo em seguida as legislaes para proteo desses
dados.
Para melhor entender a legislao sobre privacidade dos dados interessante fazer
uma classicao desses dados em dados cadastrais, dados necessrios para estabelecer
uma conexo e dados de contedo de trfego. Apesar de cada um desses tipos ter
utilidade dspares todos, a priori, contm informaes privadas. Dados casdastrais so
os dados encontrados nos vrios bancos de dados existem nas empresas. Os dados
necessrios para estabelecer uma conexo so as informaes usadas para controlar a
conexo de um cliente a uma pgina web de um banco, por exemplo. Por ltimo, os
dados de contudo de trfego contm a informao de interesse do usurio durante cada
interao do mesmo com os sistemas em rede.

2.2 Anonimizao
No dicionrio Aurlio [Ferreira, 2008] a denio de anonimato sem o nome ou
assinatura do autor; sem nome ou nomeada; obscuro. Portanto, podemos dizer que
no contexto da informatizao dos dados a informao annima aquela que no seja
possvel identicar a quem ela se refere.
A nossa Constituio, no inciso IV do artigo 5o , diz que  livre a manifestao
do pensamento, sendo vedado o anonimato [Congresso Nacional, 1988], entendendo
ento que vedada a no identicao do autor. Apesar de a privacidade ser protegida
em nosso texto constitucional, o anonimato no o [Pinheiro, 2008], permitindo que
os dados de cadastros e de conexes possam ser levantados atravs dos meios legais.
Diante disso, a anonimizao de dados de trfego de rede o processo de retirar
as informaes que possam levar identicao dos usurios da conexo. Mais abrangentemente, essa anonimizao engloba tambm o contedo da informao trocada e
tambm as informaes que interferem na segurana da rede de origem e destino dos
dados.

2.3 Ataques Utilizando Logs


O problema de coleta de dados se resume nos limites da lei. Ou seja, a lei dene se
um determinado tipo de dado pode ser coletado ou no. Alm disso, mesmo com a

2.3.

Ataques Utilizando Logs

permisso legal para coleta, a legislao dever especicar se o dado coletado pode ser
compartilhado e a forma para isso ocorrer.
No caso das pesquisas, caso haja um consentimento legal para utilizao desses
dados, isso deve ocorrer somente com o uso de anonimizao, ou seja, a tendncia legal
admitir o uso apenas com informaes que no levem identicao do usurio e
seus dados privados.
Levando em considerao que os dados compartilhados para a pesquisa sejam
anonimizados, surge a necessidade de garantir que esses dados de rede divulgados no
sero passveis de quebra do anonimato. Alm disso, preciso considerar os possveis
ataques que afetam no s o anonimato, mas tambm a segurana da rede/sistema,
pois a falta de segurana de uma rede pode implicar na violao da privacidade dos
seus usurios.
Um ataque comum com relao segurana de uma rede o que tenta identicar
o sistema operacional que gerou um certo tipo de dado; para isso foram desenvolvidas
as ferramentas baseadas na tcnica de passive OS Fingerprint [Nmap, 2009; Spangler,
2003]. A principal atuao dessas ferramentas vericar em determinados campos dos
cabealhos da pilha TCP/IP, o tipo de informao que eles contm. Isso se justica
porque nem sempre os desenvolvedores dos sistemas operacionais seguem as denies
e padronizao completamente. Ou seja, o padro indica que determinado campo deve
conter um valor padro, mas muitos sistemas colocam valores diferentes. Dessa forma,
as ferramentas de identicao do sistema operacional comparam o valor do campo com
o valor padro de cada sistema operacional. Caso os valores sejam iguais, deduz-se qual
o sistema operacional que originou aquele pacote. Existem diversos campos em vrios
nveis da arquitetura TCP/IP que podem ser utilizados por esse tipo de ferramenta,
como veremos com maiores detalhes esses campos na seo 4.1.
Outro tipo de ataque, analisado por Kohno et al. [2005], a tcnica de identicar determinada mquina atravs de um padro de tempo de envio de pacotes, onde
segundo os autores cada equipamento possui um padro de intervalo entre o envio dos
pacotes, esse padro se torna uma assinatura ou impresso digital das mquinas.
Os ataques anteriores levam em considerao arquivos de logs anonimizados disponibilizados pelas empresas. Um outro tipo de ataque o chamado ataque de injeo
de logs [Gattani & Daniels, 2008; King et al., 2009; Ribeiro et al., 2008], onde o adversrio sabe que determinada empresa disponibiliza periodicamente, para a comunidade,
seus arquivos de logs anonimizados. Ento, o adversrio tenta inserir, nos arquivos que
futuramente sero disponibilizados, informaes que o ajude a identicar que determidados dados, mesmo aps a sua anonimizao, foram gerados por ele.
Essa insero de dados pode ser feita atravs de uma sequncia de requisies

10

Captulo 2. Conceitos e Trabalhos Relacionados

ICMP ou atravs da incluso de uma informao em campos no utilizados pela arquitetura TCP/IP, por exemplo, o campo reservado do protocolo TCP. No futuro,
quando os arquivos forem disponibilizados para a comunidade, o adversrio localiza
nesses dados o trfego gerado por ele. Dessa forma, ele saber o contedo do dado
original e o padro de sua anonimizao, facilitando o trabalho de identicar os valores
originais do restante dos dados anonimizados.
Existe ainda um outro tipo de ataque a arquivos de logs descrito por Coull et al.
[2007], que possvel inferir a topologia da rede e at identicar determinados computadores/usurios atravs da anlise de comportamento do trfego, por exemplo, tipo
de trfego especco ou horrio de conexo determinado, segundo os autores a anonimizao no ecaz contra este tipo de ataque.

2.4 Arquitetura TCP/IP


Atualmente a Internet formada por milhares de pequenas e grandes redes de computadores interligadas uma s outras. Essas redes so formadas pelos mais variados tipos de

hardware, sistemas operacionais, aplicativos e tecnologias de roteamento, congurando


umas das principais caractersticas da Internet, que a sua heterogeneidade.
Para que mquinas conectadas em diferentes pontos dessa variedade de tecnologias conseguisse se comunicar, foi necessrio criar padres de comunicao que permitissem a troca de informao entre as diferentes redes.
A arquitetura TCP/IP, desenvolvida a partir do projeto da ARPANET no incio
da dcada de 1970, se tornou o padro de facto que permitiu essa troca de informaes. Tambm chamada de pilha TCP/IP, essa arquitetura baseada na comutao
de pacotes e formada por um conjunto de quatro camadas de protocolos (aplicao,
transporte, rede (ou inter-rede) e tecnologia de rede local), onde cada uma das camadas
possui vrios protocolos que tm a funo de resolver determinados problemas envolvidos na comunicao, por exemplo, a identicao do servio que est sendo utilizado,
a identicao do destinatrio, etc.
Ao se comunicarem usando a arquitetura TCP/IP, as mquinas dividem a informao em vrios pacotes de dados que devem ser transferidos pela rede at seu destino.
Nesse processo de diviso da informao para o envio, cada pacote de dados da camada
de aplicao repassado para cada uma das camadas inferiores da pilha. Essas camadas adicionam ao pacote informaes de controle para que as camadas equivalentes da
arquitetura no destinatrio entendam como a informao deve ser traduzida. Essas
informaes constituem os cabealhos de cada camada da arquitetura e determinam

2.4.

Arquitetura TCP/IP

11

Figura 2.1. Pilha de Protocolos TCP/IP


como cada pacote deve ser processado ao longo do caminho.
No destinatrio, cada pacote recebido processado a partir da camada de tecnologia de rede local. Cada camada retira o respectivo cabealho do incio do pacote e
utiliza a informao ali contida para decidir como processar os dados do pacote. Normalmente isso implica na entrega do pacote a um protocolo da camada superior, que
por sua vez retira seu cabealho e repete o processo, at que os dados sejam entregues aplicao. Essa tcnica de incluso/retirada de cabealhos na mensagem pelos
protocolos de cada camada chamada de encapsulamento, onde o pacote que sai de
uma camada, incluindo seu cabealho, entendido pela camada abaixo como sendo a
mensagem de dados. A gura 2.2 mostra como funciona o encapsulamento de dados
pelas camadas da arquitetura TCP/IP.
A seguir detalhamos a funo de cada uma das camadas da arquitetura TCP/IP.

Aplicao
A camada aplicao a camada onde se localizam os programas dos usurios,
os quais implementam diferentes servios. Essa camada recebe as solicitaes
daqueles usurios e as transformam em mensagens para outras aplicaes em ou-

12

Captulo 2. Conceitos e Trabalhos Relacionados

Figura 2.2. Encapsulamento de dados na arquitetura TCP/IP


tros pontos da rede. Essas mensagens precisam ser repassadas para a camada
de transporte, para que sejam entregues aos programas de destino. Exemplos
de protocolos dessa camada so HTTP, SMTP, SSH e DNS, que tratam, respectivamente, de requisies das aplicaes de web, do envio de mensagens de
correio eletrnico, do acesso a computadores remotos e da resoluo de nomes na
Internet.

Transporte
A camada seguinte denominada transporte. Ela responsvel por receber os
dados da camada de aplicao e garantir que eles sejam entregues mquina destino. Nessa camada os protocolos existentes so o User Datagram Protocol (UDP)
e o Transmission Control Protocol (TCP), que oferecem servios de entrega diferentes: o primeiro oferece um servio baseado em mensagens independentes, sem
garantias de entrega, enquanto o segundo oferece um canal de comunicao de

bytes, que so entregues garantidamente em ordem e sem perdas (desde que no


haja uma interrupo da rede subjacente).

Rede

2.4.

Arquitetura TCP/IP

13

A camada de rede tem como principal protocolo o Internet Protocol (IP), que
acrescenta aos pacotes da camada de transporte informaes como endereos de
origem e destino e garante que esses pacotes sejam roteados atravs de uma rede
local a outra, at que eles atinjam seu destino. Esse processo, entretanto, feito
no modelo denominado melhor esforo (best eort ), onde nenhuma garantia
feita sobre a entrega nal dos dados (da a importncia do TCP, que deve corrigir
quaisquer falhas ocorridas na comunicao por IP).
Nesse sentido, as principais atribuies dessa camada so prover um padro de
identicao de mquinas na rede que seja vlido para toda a Internet e fornecer
uma forma de garantir o encaminhamento correto dos pacotes entre a mquina de
origem e a mquina destino (roteamento). Esse padro de identicao o que
se denomina endereo IP, ele possui quatro bytes e tem como funo identicar
unicamente uma mquina na Internet; ele tambm tem como funo identicar
a rede em que se encontra determinada mquina.
Para garantir essas funcionalidades encontramos tambm nessa camada, alm do
IP, o protocolo Internet Control Message Protocol (ICMP) e os protocolos
de roteamento, o primeiro tem como funo principal permitir que os elementos da rede se comuniquem para troca de mensagens de erro ou de controle que
porventura sejam necessrias durante a comunicao. J os protocolos de roteamento, so responsveis por permitir que os caminhos entre as diversas origens
e destinos possveis sejam conhecidos ao longo da rede. Exemplos de protocolos
de roteamento so RIP, OSPF e BGP.
Normalmente se inclui nesta camada o protocolo ARP (Address Resolution Pro-

tocol ), usado pelas mquinas para transformar os endereos IP em endereos


reconhecidos pela tecnologia de rede local existente em cada caso.

Tecnologia de Rede Local


A camada inferior, na concepo original da arquitetura TCP/IP, denominada
de tecnologia de rede local e tem como responsabilidade receber os pacotes da
camada de rede e os converter em quadros que em seguida so transformados em
sinais eltricos e transmitidos pela rede fsica at uma outra mquina da rede
local, esta mquina poder ser o destinatrio nal da conexo, ou pode ser um
roteador (gateway ) que atravs do protocolo IP identicar o prximo canal/rede
por onde aquele pacote dever ser roteado em seguida. Cada tecnologia de rede
local pode ter sua forma interna de identicar cada mquina a ela conectada,
da a imporncia do protocolo ARP, mencionado anteriormente, j que cada rede

14

Captulo 2. Conceitos e Trabalhos Relacionados

local no necessariamente tem cincia dos endereos denidos pela camada de


rede (IP).
Exemplos de tecnologias de rede local so as diveras variedades de redes Ethernet,
as redes sem o conhecidas como WiFi e WiMax, e tecnologias para canais pontoa-ponto (usualmente linhas discadas) como o protocolo PPP.

2.5 Processo de Coleta e Anlise de Dados


A m de se obter informaes sobre o comportamento dos usurios e as demandas
sobre a infra-estrutura de rede, diversos tipos de dados podem ser de interesse durante
o trabalho de monitorao e anlise de logs.

2.5.1

Tipos de coleta

Para cada tipo de dado, um tipo de coleta especco pode ser necessrio, ao se focar
em um tipo de aplicao ou servio especco, como que administradores e pesquisadores se valham de registros de atividade (logs ) gerados pelos programas servidores que
implementam determinados servios. Esse o caso, por exemplo, quando se estuda a
carga de um servidor Web atravs do log das requisies atendidas por ele. No extremo
oposto do espectro de coleta de dados encontra-se a coleta de trfego bruto que circula pela rede, onde todo o contedo de qualquer comunicao que atravessa um canal
pode ser monitorado e coletado. A coleta de anlise de logs de aplicaes preferida
quando o objetivo analisar um servio especco. Nesse caso, os registros j so por
natureza mais processados, pois pode-se resumir a informao a ser coletada com base
no entendimento da semntica da aplicao. Entretanto, para faz-lo, normalmente
necessrio realizar a coleta nas extremidades da rede, seja na mquina do usurio ou
no servidor da aplicao, j que so os nicos pontos que possuem conhecimento suciente para interpretar as requisies do usurio e as respostas do servidor. Esse tipo
de anlise permite se obter um conhecimento aprofundado sobre um certo servio, mas
no permite uma viso abrangente sobre a rede como um todo ou sobre a interao
entre diferentes servios.
Do ponto de vista de privacidade e anonimato o fato da informao ser derivada
com base na semntica de cada servio torna o problema de se vericar o anonimato
em qualquer log desse tipo um problema diferente para cada tipo se servio ou formato
de log. As questes de anonimato que surgem em um servio de correio so de natureza
diferente daquelas de um servidor Web, por exemplo. Dessa forma, trabalhos nesse nvel
devem focar em servios especcos.

2.5.

Processo de Coleta e Anlise de Dados

15

J a coleta de trfego bruto de rede permite que se obtenha uma viso global
de toda comunicao que utiliza um certo elemento da rede (um canal, roteador ou
chave/switch ). Esse tipo de coleta exige que o interessado tenha acesso direto ao
elemento da rede onde se pretende observar o trfego, o que normalmente implica na
participao do administrador da rede em questo. O problema desse tipo de coleta
o grande volume de dados que pode ser gerado, pois em ltima instncia pode-se optar
por coletar cada byte trafegado. Esse volume tambm implica em um maior trabalho
na anlise dos dados coletados. Por ser uma coleta bruta, em princpio possvel
derivar quase toda informao sobre cada aplicao, pelo menos at o ponto em que
essa informao tenha relao com os bytes trafegados. Isso se deve ao fato de que
todos os dados de cada aplicao podem, em princpio, ser includos na coleta. Alm
disso, os cabealhos dos diversos protocolos trazem diversas informaes que podem
servir para se identicar a mquina de origem/destino da comunicao e at mesmo o
usurio envolvido.
Uma soluo intermediria em relao ao tipo de dado coletado, que utilizada
para anlises onde o objetivo no vai alm do entendimento dos padres de trfego
(volumes, origens e destinos), sem preocupao com a semntica dos servios, a
coleta de dados sobre uxos (ows ). Esse tipo de informao comumente disponvel
em roteadores atravs do protocolo NetFlow [Netow, 2009] e informa apenas o volume
de dados trafegados entre cada par origem/destino observado atravs de um canal
ou roteador por unidade de tempo. Esse tipo de dado possui basicamente apenas o
endereo IP de origem e destino como informao que pode afetar a privacidade do
usurio e/ou a segurana da rede. Dessa forma, questes de anonimato nesse caso se
limitam a esses endereos; dessa forma, anonimizao do trfego netflow apenas um
sub-conjunto das questes associadas ao trfego bruto.
Este trabalho tem como foco o estudo do problema de anonimizao de registros
de trfego bruto, por ser um problema abrangente e independente de aplicaes especcas. Alm disso, muito do que se discute aqui sobre anonimizao de endereos de
rede que se aplica diretamente ao problema de anonimizao de coletas de uxos, como
explicado anteriormente.
Trfego bruto de rede compreende todo o contedo de cada pacote que trafega
pela rede. Esse tipo de dado pode ser obtido nos elementos de conexo e roteamento,
como roteadores ou switches. Dele podem ser obtidas informaes sobre origem e
destino dos dados, tipo de servio que est sendo usado, horrio da conexo e at
mesmo o contedo da comunicao, como por exemplo, identicao de usurio, senha
e nmero de carto de crdito em uma interao com um servidor de comrcio eletrnico
e tambm todo o contedo de uma mensagem de correio eletrnico.

16

Captulo 2. Conceitos e Trabalhos Relacionados

Os dados referentes conexo geralmente so coletados pelos administradores


para observar o uso da rede, identicar possveis ataques, identicar a origem de cada
tipo de trfego, ou qualquer tipo de informao que ajude na manuteno e bom
funcionamento da rede. J os pesquisadores podem usar esses dados para caracterizar
trfego e analisar o comportamento da rede aps a disponibilizao de um novo servio,
por exemplo.

2.5.2

O processo de coleta

O processo de coleta pode ser dividido em trs partes principais: a obteno de um


acesso direto ao trfego a ser coletado, a coleta propriamente dita e sua anlise posterior.

2.5.2.1

Acesso aos dados do trfego

O primeiro passo para se realizar a coleta de dados brutos encontrar uma forma de
se ter acesso ao contedo de todos os pacotes que passam por um canal de interesse.
Se esse canal de interesse apenas um canal que leva a uma mquina especca, como
um servidor, basta se ter acesso quela mquina para se realizar a coleta. Por outro
lado, quando se deseja coletar/analisar todo o trfego de entrada e sada de uma rede,
necessrio ter acesso ao canal que conecta essa rede ao restante da Internet. Nesse caso,
comum que haja apenas roteadores ou chaves Ethernet (switches ) nas extremidades
do canal, onde normalmente no possvel se realizar diretamente uma coleta (j que
normalmente precisa-se de um equipamento especialmente congurado para esse m).
Nesse caso, h normalmente duas formas de se resolver esse problema, dependendo
dos recursos de hardware disponveis: interceptao ou espelhamento do trfego. A
gura 2.3 ilustra as duas opes.
No caso da interceptao, um computador com duas interfaces de rede deve ser
colocado no meio do uxo de dados, usando-se cada uma das suas interfaces para se
conectar a um dos dois extremos do canal original que se deseja monitorar. O sistema
operacional daquele computador deve ser congurado para copiar todos os pacotes que
cheguem em uma interface para a outra, garantindo que o uxo de pacotes no canal seja
mantido inalterado. Paralelamente, o sistema deve copiar cada pacote recebido para
um arquivo de armazenamento local, que constituir o arquivo de registro de trfego.
J no caso do espelhamento, essencial que se tenha um elemento de rede (roteador ou chave Ethernet) com essa funcionalidade. Nesse caso, o elemento de rede pode
ser programado para realizar uma cpia de cada pacote recebido ou enviado atravs
de uma certa interface de rede (a interface de terminao do canal de interesse). Essa

2.5.

Processo de Coleta e Anlise de Dados

17

a)

b)

Figura 2.3. Formas de coleta de trfego: a) interceptao; b) espelhamento

cpia ento transmitida por uma outra interface do mesmo elemento de rede, qual
pode-se ento conectar o computador de coleta. Esse computador precisa apenas armazenar cada pacote que recebe atravs daquela interface, sem nenhum outro tratamento
extra.
A interceptao exige normalmente um computador com mais recursos (o equipameno precisa ter duas interfaces de rede, ser congurado para copiar o trfego recebido
em cada interface para outra, agindo como uma bridge, e com desempenho suciente
para fazer a cpia e o armazenamento do trfego sem perdas). Entretanto pode ser
mais facilmente colocada em prtica, pois no impe maiores exigncias sobre a rede
a ser monitorada. Desde que o canal monitorado seja da mesma tecnologia das duas
interfaces de rede do computador de monitorao ela pode ser implantada. J o espelhamento reduz a demanda sobre o computador de coleta, que precisa ser capaz
apenas de copiar os dados recebido para um arquivo, mas depende da existncia de um
elemento de rede no ponto da coleta que possua recursos de espelhamento de trfego.

18

2.5.2.2

Captulo 2. Conceitos e Trabalhos Relacionados

Coleta de trfego

Independente da tcnica adotada para se ter acesso ao trfego, o prximo elemento necessrio o programa de coleta propriamente dito. Nesse caso, a ferramenta mais
comum para obter esses dados, dentre outros aplicativos existentes, o programa

tcpdump [Tcpdump & libpcap, 2009] atravs da libpcap que uma biblioteca para
processamento dos logs, estes emprestam seus nomes para os arquivos gerados por eles.
A coleta de trfego no um procedimento automtico dos elementos de rede: ela
deve ser congurada pelo administrador do sistema e a partir da, como mencionado
anteriormente, pode-se obter e armazenar todo o contedo dos dados que trafegam pela
rede nesse tipo de monitorao. Entretanto, geralmente o que coletado e analisado
so apenas os primeiros bytes de cada pacote trafegado, j que neles encontram-se
os cabealhos dos protocolos, de onde se pode obter a maior parte da informao de
interesse para anlise.
O tcpdump uma ferramenta que executada atravs da linha de comando e
consegue ler tanto os dados diretamente da interface de rede, quanto de um arquivo
de coleta gerado anteriormente. Ele pode gerar um arquivo de sada no formato texto
ou no formato do prprio programa. Ele usa a biblioteca pcap (packet capture ), que
proporciona um ambiente de alto nvel para captura e processamento de pacotes de
rede.
O tcpdump tem como padro, na maioria dos sistemas operacionais, ler apenas
os primeiros 68 bytes dos pacotes que trafegam na rede. Esses 68 bytes normalmente
so sucientes para se obter toda a estrutura de cabealhos ICMP, IP, TCP e UDP.
Entretanto, como o tamanho dos pacotes desses protocolos pode variar, possvel
que dentro dos 68 bytes salvo exista uma quantidade de bytes do chamado payload
(que so os dados da aplicao propriamente dita). Alm disso, o programa pode ser
congurado para reter todo o pacote, aumentando consideravelmente a quantidade de
dados armazenados e consequentemente afetando o desempenho do sistema de leitura
e gravao dos pacotes. O armazenamento de bytes de payload sempre uma questo
delicada, devido variedade de aplicaes praticamente impossvel se criar uma forma
de anonimizar esses dados.
Uma caracterstica muito importante do tcpdump que ele permite especicar
ltros para ele coletar apenas determinado tipo de informao. Por exemplo, ele pode
ser congurado para coletar apenas o trfego de determinado endereo IP de origem,
ou todos os pacotes que forem do protocolo TCP, ou at mesmo excluir os pacotes que
sejam endereados para a porta 80 (geralmente trfego web).

2.5.

Processo de Coleta e Anlise de Dados

19

2.5.2.3 Mecanismos de anlise


Uma vez de posse de uma cpia do trfego em um canal, diversas ferramentas podem ser
utilizadas para se analisar esse trfego. Muitas delas, como por exemplo, o tcpstat

e o tcpflow2 apenas geram informaes estatsticas agregadas, no se constituindo,


a princpio, em ameaa privacidade dos usurios. Entretanto, outros programas
permitem que se obtenha um grande volume de informaes sobre os usurios e suas
comunicaes.
A primeira ferramenta nessa linha sem dvida o prprio tcpdump, que pode ser
usado para gerar relatrios textuais com informaes extradas de cada pacote. Alm
dele, entretanto, diversos outros programas podem ser usados. Duas ferramentas que
merecem destaque nesse caso so o ntop e o wireshark.
O ntop [Ntop, 2009] um analisador desenvolvido para atuar em tempo real
(normalmente no mesmo ponto onde se usaria o tcpdump para coleta) que gera diversos
relatrios sobre o trfego observado. Ele pode, entretanto, ser utilizado tambm para
obter relatrios sobre trfego previamente coletado. Os relatrios do ntop so de
forma geral estatsticos; entretanto, os dados podem ser divididas por endereos de
origem/destino, tipo de mquina e outros elementos que podem afetar a privacidade
dos usurios. A gura 2.4 apresenta exemplos do tipo de informao disponvel atravs
da sua interface.
J o wireshark [Wireshark, 2009] (previamente chamado ethereal) um programa de inspeo de pacotes com interface grca. Com ele possvel se inspecionar
cada bit em um pacote, sendo que a interpretao dos campos dos cabealhos da maioria dos protocolos existentes j feita automaticamente pela aplicao. Com essa
ferramenta possvel tambm, por exemplo, reconstruir toda uma comunicao entre
duas partes na rede a partir dos pacotes individuais, o que pode ter srios impactos
em questes de privacidade. A gura 2.5 mostra trs janelas de anlise. Na primeira
so mostrados todos os pacotes do arquivo tcpdump, na qual o pacote nmero 34 foi
selecionado. Na segunda janela possvel visualizar detalhadamente os campos das
camadas do TCP/IP, no caso, so mostrados os valores dos campos do protocolo IP.
Finalmente, na terceira janela mostrado o contedo do pacote em hexadecimal.
Alm desses programas, diversos outros existem com funcionalidades semelhantes
ou complementares. Alm disso, diversas bibliotecas existem para linguagens como C,

Java, Python, Perl e outras, que simplicam o desenvolvimento de programas que


interpretam o trfego de rede em busca de informaes especcas. Esse recurso ser
1 http://www.frenchfries.net/paul/tcpstat/
2 http://www.circlemud.org/

jelson/software/tcpow/

20

Captulo 2. Conceitos e Trabalhos Relacionados

Figura 2.4. Exemplo de informao mostrada pelo ntop

Figura 2.5. Exemplo de informao mostrada pelo wireshark

inclusive explorado no captulo ??, no desenvolvimento da ferramenta de anlise de


anonimizao

2.6.

Ferramentas de anonimizao

21

2.5.3 Discusso
Uma vez que se consiga um computador com acesso ao trfego utilizando uma das tcnicas anteriores, o administrador/pesquisador precisa explicitamente executar o programa tcpdump para coletar os dados, ou seja, at que isso ocorra no h qualquer
problema de privacidade envolvido. As dvidas surgem a partir do momento em que
uma cpia desses dados comea a ser armazenada. Por exemplo, apenas coletar estes
dados sem o aviso prvio do usurio da rede j caracteriza uma invaso de privacidade?
Anal, os pacotes armazenados por padro do tcpdump, como visto, podem conter informaes pessoais. Por outro lado, o administrador no manipulou ou compartilhou
esses dados. E se os dados coletados contiverem apenas com os cabealhos do pacote,
isso conguraria tambm uma quebra de privacidade? O endereo IP uma informao
pessoal?
Avisar previamente o usurio sobre coleta suciente para o uso de seus dados
no congurar invaso de privacidade? O pesquisador poder compartilhar esses dados
ou guard-los por tempo indeterminado? Poder fazer qualquer tipo de anlise nesses
dados? Essas so questes que precisam ser consideradas.
Como vimos, o tcpdump permite ainda ltrar as informaes a serem coletadas,
ou seja, possvel fazer uma monitorao direcionada para identicar quais computadores acessam determinados sites ou qual o perl de acesso de determinados usurios.
Este tipo de monitorao legal? Existe algum tipo de procedimento especial que
torne esta coleta legal ou ilegal? Ao ltrar apenas um tipo de trfego aumenta-se a
garantia de privacidade do que coletado? Podendo ltrar um tipo de trfego, a coleta
pode ser direcionada e tornar a privacidade mais ameaada?
A anonimizao de dados torna a coleta legal? Pois a princpio nem o payload e
nem as informaes de indicao da mquina foram mantidas. Ou apenas legal a
coleta executada com permisso judicial?
Achar respostas concretas para essas questes um tarefa complexa, esperamos
ao nal desse trabalho discutir as principais diculdades que envolvem esse assunto.

2.6 Ferramentas de anonimizao


Diante da necessidade de se manter a privacidade dos dados e a segurana das redes,
surgiram as chamadas ferramentas de anonimizao de dados, que denem um conjunto de polticas e tcnicas para tentar garantir a privacidade dos usurios de redes e
outros servios, sem, no entanto, afetar a qualidade das informaes necessrias para
o desenvolvimento de pesquisa, auditorias e anlises gerenciais.

22

Captulo 2. Conceitos e Trabalhos Relacionados

Existem diversos tipos de ferramentas e mtodos de anonimizao, cada uma delas


usando abordagens diferentes. Algumas fazem anonimizao em um nvel especco
da pilha de protocolos, outras em informaes restritas como por exemplo, as URLs e
nomes dos arquivos [Kuenning & Miller, 2003], mas a maioria tenta anonimizar campos
em todos os nveis da arquitetura TCP/IP.
A seguir discutimos brevemente algumas ferramentas de anonimizao existentes
e suas caractersticas principais. Posteriormente, na seo 4.4 detalharemos as principais ferramentas existentes.
O tcpdpriv [Minshall, 1996] uma das mais conhecidas ferramentas de anonimizao, desenvolvida para anonimizar dados coletados diretamente da interface de rede
utilizando o tcpdump. Ela se preocupa apenas com os cabealhos dos pacotes IP, UDP
e TCP, sendo capaz de gerar diversos nveis de anonimizao, pois permite a escolha
de vrios campos do cabealho para serem anonimizados.
O ipsumdump [Ipsumdump, 2009] uma ferramenta de anonimizao que sumariza os dados obtidos do tcpdump utilizando o tcpdpriv e transforma esses dados para
formato ASCII.
Outra ferramenta disponvel a tcpurify [Blanton, 2009], utilizada para obteno de dados na interface de rede. Similar ao tcpdump, mas com o enfoque em
privacidade, ela anonimiza diretamente o dados antes de serem armazenados e despreza o restante do pacote IP ou Ethernet, logo aps reconhecer o ltimo cabealho
que se deseja coletar.
A ferramenta APPI [Koukis et al., 2006], uma API baseada em linguagem C,
tem como principal objetivo de projeto ser extensvel, aplicando essa caracterstica em
trs aspectos diferentes: permite a adio de novas funes de anonimizao, possui
suporte a novos protocolos e aceita entrada para vrios tipos de coletores de trfego.
O tcpmkpub [Pang et al., 2006] uma ferramenta de anlise de dados do tcpdump
que no prev anonimizao de dados online. Ela procura ser o mais genrica possvel,
para permitir uma implementao fcil de uma poltica de anonimizao atravs dos
nveis de protocolo, ou seja, ela fornece um framework geral para anonimizar dados de
rede que pode alojar uma gama de polticas de protocolos e de decises.
Na mesma linha do tcpmkpub existe tambm o FLAIM [Slagell et al., 2006], que
tem uma linguagem de especicao dos campos a serem anonimizados, tornando a
congurao muito exvel. Alm disso, disponibiliza vrias tcnicas de anonimizao
para cada um dos campos dos protocolos da arquitetura TCP/IP.

2.7.

Outros Trabalhos Relacionados

23

2.7 Outros Trabalhos Relacionados


A discusso de disponibilizar logs sem prejudicar a privacidade e segurana, preservando
ainda a qualidade dos dados para a pesquisa, tem ganhado mais destaque a cada dia.
Atualmente, temos trabalhos discutindo as mais variadas tcnicas de anonimizao com
por exemplo, anonimizao usando criptograa [Xu et al., 2002; Ramaswamy & Wolf,
2007], outros trabalhos seguem a linha de criar ambientes seguros para a coleta e anlise
de logs [Shanmugasundaram, 2003; Bianchi et al., 2008a; Hussain et al., 2006].
De forma geral as pesquisas se concentram em novas tcnicas e ferramentas
de anonimizao [Luo et al., 2006], e tcnicas para recuperar informaes anonimizadas, ou seja, ataques contra as anonimizaes [King et al., 2009; Kohno et al., 2005;
Ribeiro et al., 2008]. H tambm artigos que se concentram apenas em anonimizao
de um determinado campo, por exemplo, o endereo IP [Keardsri et al., 2009].
Tambm so encontrados alguns artigos que analisam a tica e os problemas
jurdicos que o compartilhamento de dados pode gerar [Allman & Paxson, 2007;
Ohm et al., 2007] e artigos que apresenta tcnicas de avaliao da qualidade da forma
de anonimizao [Coull et al., 2008; Kelly et al., 2008].

Captulo 3
Aspectos Legais
Como vimos anteriormente, o crescimento no uso da Internet para atividades do diaa-dia ocorrem em um ritmo cada vez maior, aumentando a necessidade de melhorias
da infraestrutura da Internet e de seus protocolos.
Consequentemente, houve um grande aumento na quantidade de informao privada trafegada na Internet alm, claro, de um maior nmero de pessoas cadastradas
nas bases de dados das empresas. Isso gerou em muitos pases uma preocupao em
regular a proteo, manuteno e circulao dessas informaes na Internet, pois as
empresas trocam, entre si, informaes de suas bases, assim como os pesquisadores
utilizam arquivos de logs de rede para sua pesquisa.
Outra consequncia desse crescimento da Internet foi o aumento signicativo do
nmero de crimes e fraudes pela rede. Esses fatos levaram a uma preocupao crescente da rea jurdica em tornar a Internet um ambiente mais controlado. Para isso,
vrios pases comearam a regulamentar polticas de combate aos chamados cybercrimes, dentre elas a tipicao de novos crimes relacionados ao ambiente computacional
e regras para maior controle do acesso a Internet, principalmente com relao ao armazenamento de arquivos de logs de conexo para facilitar a identicao de criminosos.
Diante dessa regulamentao crescente entre os pases e, consequentemente, uma
maior preocupao com o controle dos dados que circulam na Internet, aumenta a
necessidade de um rigoroso processo de coleta, armazenamento e utilizao desses dados
por parte de empresas, impactando diretamente a utilizao e compartilhamento de
dados de conexo de rede pelos pesquisadores da rea.
Atualmente, a maioria dos pesquisadores coletam, manipulam e, muitas vezes,
compartilham os arquivos de logs de conexo sem se preocupar com as normas de
condencialidade/privacidade que protegem esse tipo de dado [Ohm et al., 2007]. Entretanto, mesmo quando se preocupam com o contedo desses arquivos eles no sabem
25

26

Captulo 3. Aspectos Legais

como devem proceder para coletar e manipular esses arquivos de forma a garantir a segurana da rede, a privacidade dos usurios, alm de se preservarem contra um processo
de indenizao ou at mesmo criminal.
Por outro lado, no meio dessa corrida para regulamentar o uso da Internet, organismos de proteo das liberdades individuais tentam combater excessos que tais
regulamentaes possam causar, por exemplo, na privacidade dos indivduos, que
um direito bsico previsto no artigo 12 da Declarao Universal dos Direitos Humanos [ONU, 1950].
Para tentar elucidar as questes jurdicas que envolvem a coleta e anlise de dados
de conexo de rede, neste captulo discutiremos o que alguns pases esto fazendo
para tentar controlar a circulao de dados e reduzir a criminalidade na Internet.
Inicialmente, a legislao da Unio Europia ser discutida, por ser um grupo dos
principais pases do mundo e por j estar muito avanada nesse assunto. Em seguida,
discutiremos as leis sobre o controle dos dados pessoais nos Estados Unidos e alguns
pases da Amrica do Sul.
Por m, veremos o que existe no Brasil em termos de legislao em vigor e ainda
apresentaremos as caractersticas relevantes dos principais projetos de lei que tramitam
no Senado Federal. Finalmente, tentaremos delinear qual a melhor forma de lidar com
a coleta de dados, para garantir o alto grau de conformidade com as leis.

3.1 Unio Europia


Com o aumento do armazenamento de informaes por meios eletrnico a Unio Europia j se preocupava em regulamentar o uso dessas informaes por parte de empresas
privadas e rgos governamentais desde a dcada de 80. Em 1981 foi aprovada a
conveno 108, que tem seus objetivos descritos em seu artigo 1o : A presente Conveno destina-se a garantir, no territrio de cada Parte, a todas as pessoas singulares,
seja qual for a sua nacionalidade ou residncia, o respeito pelos seus direitos e liberdades fundamentais, e especialmente seu direito vida privada, face ao tratamento
automatizado dos dados de carter pessoal que lhes digam respeito (proteco dos
dados) [Parlamento Europeu, 1981].
Essa conveno dene dados de carter pessoal como sendo qualquer informao
sobre uma pessoa identicada ou que possa vir a ser identicada (titularond dos dados). Ela tambm dene padres mnimos de segurana nos quais os dados pessoais
de arquivos automatizados devem estar resguardados, sob uma poltica apropriada,
contra a destruio, acidental ou no, a perda acidental e a manipulao e divulgao

3.1.

Unio Europia

27

no autorizadas.
Ela tambm especica a forma como esses dados podem ser obtidos e como devem ser mantidos, dando prerrogativa ao titular dos dados para acess-los, retic-los
ou elimin-los. Ela ainda permite que as empresas utilizem esses dados para ns de
estatstica ou de pesquisa cientca, desde que no causem risco privacidade dos
titulares.
Observamos que no decorrer dos anos regular a proteo privacidade sem prejudicar a livre circulao dos dados entre os pases membros foi sempre uma preocupao
no Parlamento Europeu, tanto que foram lanadas diversas diretivas e regulamentos
(que so uma espcie de tratado entre os pases membros que se comprometem a adequar sua legislao interna s diretrizes desses documentos) denindo regras sobre o
assunto.
Em 1995 foi adotada a diretiva 46 [Parlamento Europeu, 1995] que busca regulamentar, novamente, a livre circulao dos dados pessoais entre os pases membros,
resguardando sobretudo os direitos fundamentais, dentre eles o direito vida privada.
Nessa diretiva so criadas outras duas excees a essa regra de privacidade: a primeira
o consentimento expresso do titular para o uso dos dados; a segunda quando os
dados so anonimizados, antes de serem manipulados, garantindo que as pessoas no
sejam identicadas.
Na diretiva 46/95 foi mantida a denio de dado pessoal, especicando algumas
das formas de identicao indireta do titular dos dados, por exemplo, atravs de
um nmero identicador, ou caractersticas fsicas culturais, etc. Ela ainda dene
o que o tratamento automatizado de dados pessoais, exemplicando os tipos de
manipulao que esses dados podem sofrer, determinando sigilo e segurana adequados.
Determina que os estados-membros devem garantir recursos judicais para quem se sentir
prejudicado e sanes para os responsveis.
Alm disso, ela regulariza a transferncia desses dados para pases nocomunitrios e, preocupada com o dinamismo na evoluo da informtica, cria no
seu artigo 29 o grupo de proteo das pessoas no que diz respeito ao tratamento de
dados pessoais, que formado por representantes de cada pas membro, especicando
entre suas atribuies, a de dar parecer sobre nvel de proteo dos pases membros e
no-membros e dar recomendaes sobre proteo das pessoas relativas ao tratamento
dos dados pessoais na Comunidade Europeia.
Em 1997 foi adotada a diretiva 66 [Parlamento Europeu, 1997] que regulamentava
o setor de telecomunicaes e foi revogada em 2002 pela diretiva 58 de 2002, que aumentou a sua abrangncia para o setor de comunicaes eletrnicas. Mesmo revogada,
veremos alguns detalhes de alguns artigos da diretiva 66 de 1997, para contextualizar-

28

Captulo 3. Aspectos Legais

mos a evoluo histrica da legislao europeia sobre o tratamento de dados pessoais


e proteo a privacidade. Ela regulamentava o uso dos dados pessoais dos assinantes
do setor de telecomunicaes. At ento, as diretivas anteriores eram direcionadas aos
bancos de dados existentes nas empresas, mas nessa diretiva foi dado um destaque aos
dados relativos conexo.
Como destaque da diretiva 66/97 pode-se citar o artigo 5o , que determinava que os
estados-membros deveriam garantir a condencialidade das comunicaes na rede pblica de telecomunicaes e seus servios. Isso inclua coibir a escuta, o armazenamento
ou outros meios de interceptao de comunicaes por terceiros sem o consentimento
dos usurios, excetuando-se quando legalmente autorizados, nos casos de segurana do
estado, investigao criminal, etc.
Tambm o artigo 6o da diretiva 66/97 merece destaque neste trabalho, pois ele
reconhecia a importncia dos dados relativos conexo, principalmente para as telecomunicaes, devido utilidade para o faturamento dos assinantes e apoio para rea
comercial e estatstica. Alm disso, determinava que o acesso aos dados de trfego
deveria ser restrito s pessoas que utilizam para aquele m. Entretanto, o mais importante que essa diretiva ainda estabelecia que esses dados deveriam ser apagados ou
tornados annimos aps a concluso da conexo ou do seu uso para as tarefas acima
(faturamento, assistncia ao cliente, deteco de fraudes, etc).
Em 2001 foi adotado o regulamento 45 [Parlamento Europeu, 2001] sobre a proteo no tratamento de dados pessoais e sua livre circulao pelas instituies e pelos
rgos comunitrios. Na mesma linha de regulao do tratamento de dados da diretiva
46 de 1995 que regulava empresas privadas, este regulamento especco para os rgos
pblicos acima citados.
Para adaptar as regras evoluo de novas tecnologias a diretiva 58 de
2002 [Parlamento Europeu, 2002], como dito anteriormente, revogou a diretiva 66 de
1997. Essa nova diretiva visa uma maior abrangncia em relao a anterior, pois ela
no s regula o setor de telecomunicaes como regula todo o setor de comunicaes
eletrnicas. Ela traz uma inovao em seu artigo 2o , diferenciando dados de trfego
e a comunicao propriamente dita, onde os primeiros so as informaes trocadas
para estabelecer a conexo, j a comunicao propriamente dita qualquer informao
trocada entre as partes atravs de um servio de comunicao eletrnica.
O artigo 5o determina que os Estados-membros garantiro a condencialidade das
comunicaes e dos dados de trfego impedindo escutas, armazenamento, etc, exceto
quando legalmente autorizados. Ainda no artigo 6o , foi mantida a regra de descartar
os dados de trfego ou anonimiz-los assim que passam a ser desnecessrios para a
comunicao, excetuando tambm os dados necessrios para a tarifao.

3.1.

Unio Europia

29

Com o nmero crescente de crimes realizados atravs da Internet, em 2006 foi


adotada a diretiva 24 [Parlamento Europeu, 2006] que tem como objetivo regular a
conservao de dados gerados no contexto dos servios de comunicao eletrnica pblica para efeitos de investigao e de represso a crimes graves, alterando a diretiva
58/2002.
A diretiva 24/2006 mantm a distino entre dados de trfego e a informao
privada que trocada durante comunicao e deixa claro no artigo 1o , nmero 1, que ela
determina a manuteno apenas dos dados de trfego, ou seja, os dados que so usados
para estabelecer a conexo, cando excludos, portanto, os dados relativos ao contedo
das comunicaes eletrnicas. No item 23 das consideraes iniciais, ela esclarece que
s so obrigados a conservar os dados os fornecedores que geram ou tratam os mesmos,
dando a entender que ela desobriga os provedores dessa determinao.
No seu artigo 1o so derrogados os artigos 5o , 6o e 9o da diretiva 58/2002. O
artigo 5o cria seis categorias de dados que devem ser conservados. A primeira, so dados
necessrios para encontrar e identicar a fonte de uma comunicao, depois so os dados
necessrios para encontrar e identicar o destino de uma comunicao, em seguida so
os dados necessrios para identicar a data, hora e durao de uma comunicao. Outra
categoria so os dados necessrios para identicar o tipo de comunicao; e tambm os
dados para identicar o equipamento de telecomunicaes dos utilizadores e por m,
os dados para identicar a localizao do equipamento de comunicao mvel.
O artigo 6o determina, aos estados-membros, que o tempo mnimo de conservao
dos dados que as legislaes internas devem estipular de seis meses e no devem
ultrapassar dois anos.

Aspectos Relevantes para a Coleta e Anonimizao


Como vimos, inicialmente foram adotados diversos atos no sentido de regular a
troca de informaes entre os pases-membros, priorizando as garantias individuais dos
usurios, nesses casos, o direito vida privada. Entretanto, como dito anteriormente,
com a proliferao do uso da Internet tambm houve um aumento no nmero de crimes
relacinados a esse meio.
Em contrapartida, os pases comearam a regular de forma autonma a reteno
dos dados de comunicao eletrnica. Ento, a Unio Europia se viu na obrigao
de estabelecer regras que unicassem as legislaes dos pases-membros, determinando
a reteno de dados de conexo pela operadora e estabelecendo critrios para essa

30

Captulo 3. Aspectos Legais

reteno, dentro dos princpios da privacidade e do Estado de Direito.


Para o nosso estudo ca claro, como vimos na diretiva 24 de 2006 que a coleta
do contedo da comunicao s pode ser feita atravs de ordem judicial. Com relao
aos dados da conexo, se esses forem anonimizados ou se tiverem o consetimento do
usurio, eles podero ser usados tanto pelos pesquisadores quanto pelos administradores
de redes. Mas os dados de conexo no anonimizados s podem ser coletados para
garantir o bom funcionamento da rede. Sendo assim, os administradores no podero
repassar esses dados para a pesquisa.

3.2 Amrica
O Canad possui dois decretos sobre a privacidade dos dados: o primeiro de 1982 e
regulamenta a coleta, o uso e a divulgao de dados pelos rgo governamentais e o
segundo de 2001, que estabelece princpios que as organizaes em geral devem seguir
na coleta, armazenamento e uso dos dados pessoais.
Nos Estados Unidos vigora a common law, que o sistema de formao de leis
atravs dos costumes e de decises judiciais. Devido a esse sistema, os EUA possuem
uma diversidade grande de decises judiciais sobre a privacidade de dados, leis estaduais
e leis federais. Devido a essa descentralizao, o congresso americano comeou a criar
diversos acts, que so as leis federais, regulamentando a privacidade de determinados
tipos de dados, por exemplo, o Health Information and Portability Accountability Act
(HIPAA), que trata sobre a manuteno e tratamento dos dados relativos sade, o

Children's Online Privacy Protection Act (COPPA), que probe aos sites a coleta de
dados de crianas sem a autorizao dos pais e o Driver's Privacy Protection Act, que
probe o estado a revelar dados pessoais dos cidados, como o endereo, nmero do
seguro social, etc.
Em 1986 entrou em vigor o Electronic Communications Privacy Act (ECPA), que
regula a interceptao da comunicao de dados, proibindo que se intercepte, acesse e
divulge informaes de uma comunicao eletrnica, prevendo algumas excees a essa
regra; por exemplo, a invaso no autorizada de sistemas por hackers considerada
ilegal, mesmo que esta invaso no cause dano. Aps os ataques terroristas, em 2001,
entrou em vigor USA Patriot Act que entre outras coisas, permite a interceptao de
comunicao de voz em computadores suspeitos.
Na Amrica do Sul alguns pases j possuem lei especca de proteo de dados.
O Chile, por exemplo, aprovou um lei de proteo de dados em 1999, dando direito s
pessoas de acesso e correo de suas informaes. A Argentina, em 2000, sancionou a

3.3.

Brasil

31

Lei 25.326 sobre a proteo dos dados pessoais, seguindo a tendncia das leis internacionais, que prev a proteo dos dados pessoais, estabelecendo regras de informao
sobre o tratamento dos dados.
Alm disso, ela criou um rgo de regulamentao e aplicao da lei proteo aos
dados pessoias. Dessa forma, a Argentina em 2003 obteve um parecer de adequao
de proteo da Unio Europia, se tornando o primeiro pas da Amrica do Sul com
autorizao de transferncia de dados de/para a Europa.

3.3 Brasil
No Brasil, apesar de no estarmos to avanado com relao s normas de troca,
preservao e privacidade dos dados dos meios de comunicao eletrnicos, no se pode
armar que no exista nenhuma regra sobre o assunto. Nessa seo, discutiremos as leis
que falam de privacidade e interceptao de dados e que atualmente vigoram no pas.
Alm disso, veremos o principal projeto de lei que est em tramitao no Congresso
Nacional, que de alguma forma ajudar no compreenso de como esse assunto deve
evoluir.

3.3.1 Legislao em Vigor


3.3.1.1 Cdigo Penal Brasileiro
O Decreto-lei no 2.848 de dezembro de 1940, o nosso Cdigo Penal [Congresso Nacional,
1940], j descrevia em seu artigo 151, o crime de violao de correspondncia, que prev
uma pena de um a seis meses ou multa; e diz no inciso II do pargrafo 1o que incorre na
mesma pena quem praticar o tipo penal violao de comunicao telegrfica,
radioeltrica ou telefnica que descrito da seguinte forma:

II- quem indevidamente divulga, transmite a outrem ou utiliza abusivamente comunicao telegrca ou radioeltrica dirigida a terceiro, ou conversao telefnica entre pessoas.
Sendo assim, vemos que o nosso Cdigo Penal tornava crime apenas quem divulga
ou transmite a outrem conversao telefnica entre outras pessoas. Isso signica que
simples ato de interceptar e/ou gravar uma comunicao telefnica no era considerado
crime, pois o crime era consumado somente no momento da divulgao ou transmisso
da informao a outrem [Jesus, 1997] . Esse inciso se resume tambm a apenas comunicaes telefnica e radioeltrica, no incluindo nosso assunto que trfego de redes,

32

Captulo 3. Aspectos Legais

mas como no temos leis especcas sobre a comunicao eletrnica e o procedimento


na comunicao so similares, faremos sempre um paralelo entre esses dois tipos de
comunicao, ajudando a ilustrar a evoluo do tratamento dado pela lei em nosso
pas para a interceptao de dados.

3.3.1.2

Constituio da Repblica de 1988

Nossa Constituio de 1988 [Congresso Nacional, 1988], prev em seu artigo 5o , inciso
X, a inviolabilidade da intimidade e da vida privada das pessoas e, no inciso XII do
mesmo artigo, prev a inviolabidade da correspondncia e das comunicaes, como
mostrado a seguir:
Art. 5o : Todos so iguais perante a lei, sem distino de qualquer
natureza, garantindo-se aos brasileiros e aos estrangeiros residentes no Pas
a inviolabilidade do direito vida, liberdade, igualdade, segurana e
propriedade, nos termos seguintes:
X - so inviolveis a intimidade, a vida privada, a honra e a imagem das
pessoas, assegurado o direito a indenizao pelo dano material ou moral
decorrente de sua violao;
XII - inviolvel o sigilo da correspondncia e das comunicaes telegrcas, de dados e das comunicaes telefnicas, salvo, no ltimo caso,
por ordem judicial, nas hipteses e na forma que a lei estabelecer para ns
de investigao criminal ou instruo processual penal.
A princpio, lendo rapidamente o inciso XII, parece que os legisladores deixaram
claro o seu interesse em tornar inviolvel o sigilo da correspondncia, das comunicaes
telegrcas e de dados, abrindo exceo s comunicaes telefnicas quando houver
ordem judicial.
O que aparentemente j est denido , na verdade, uma grande polmica entre
os juristas do pas, pois a expresso, salvo, no ltimo caso, no deixa claro a que
se refere [Delmanto et al., 1998], criando pelo menos duas correntes de interpretao
desse inciso. A primeira corrente defende que o inciso possui quatro itens (correspondncia, comunicaes telegrcas, comunicaes de dados e comunicaes telefnicas)
sendo, assim, que a exceo prevista diante de autorizao judicial relativa apenas
s comunicaes telefnicas, tornando o sigilo da correspondncia, da comunicaes
telegrcas e de dados absoluto [Greco Filho, 1996]. Ao defender a exceo somente s
comunicaes telefnicas, Delmanto et al. [1998], citando Themistocles Cavalcanti 1 ,
1 Themistocles

Cavalcanti, Do Controle da Constitucionalidade, 1986, p. 164, apud Alberto silva


Franco, Crimes Hediodos, 1994, p.90

3.3.

Brasil

33

diz que as garantias individuais devem ser interpretadas de forma extensiva, ou seja,
diante de uma regra com texto duvidoso deve-se ampliar a garantia de liberdade e no
restringi-la.
Por outro lado, existem autores que defendem a idia de que esse inciso dividido
em apenas duas partes, sendo a primeira o direito ao sigilo da correspondncia e das
comunicaes telegrcas e a segunda, o direito ao sigilo comunicaes de dados e das
comunicaes telefnicas. Dessa forma, a exceo prevista de quebra do sigilo se destina
tanto s comunicaes de dados, quanto s comunicaes telefnicas [Gomes & Cervini,
1997]. Em seu voto no julgamento do pedido 577 [Mello, 1992] de quebra de sigilo
bancrio, o Ministro do Supremo Tribunal Federal (STF) Marco Aurlio Mello, declara
esse entendimento sobre esse preceito.
Alm de falar da exceo vista acima, o inciso XII determina que a legislao
infra-constitucional a regulamente na sua forma e hipteses, para ns de investigao
criminal ou instruo penal. Nesse ponto no h discusso, ou seja, as duas correntes
concordam que para haver a quebra do sigilo preciso uma ordem judicial e isso somente
para ns de investigao criminal ou instruo processual penal.

3.3.1.3 Lei 9296


Conforme previsto em nossa Constituio, a lei 9296 [Congresso Nacional, 1996] foi
promulgada em 1996 para regulamentar o seu inciso XII do artigo 5o . No pargrafo
nico do artigo 1o , os legisladores deixam claro sua interpretao do referido inciso da
Constituio, O disposto nesta Lei aplica-se interceptao do uxo de comunicaes
em sistemas de informtica e telemtica. Infelizmente este artigo no acabou com
a polmica, pois os defensores de que a Constituio autoriza apenas a interceptao
telefnica armam que a lei 9296 inconstitucional, pois ela estende o alcance da norma
constitucional, restringindo o direito privacidade e uma norma infra-constitucional
no pode contrariar o texto da Constituio.
Atualmente est no STF uma Ao Direta de Inconstitucionalidade (ADI) da
lei 9296 pedindo a inconstitucionalidade de cinco dispositivos dessa lei; entre eles, o
pargrafo nico do artigo 1o . A deciso a ser tomada pelo STF dever resolver a
questo em denitivo.
A lei 9296 no artigo 2o dene trs hipteses onde a interceptao telefnica no
ser admitida: quando no houver indcios de autoria ou participao, quando a prova
puder ser feita por outros meios e quando o fato investigado for uma infrao penal punida, no mximo, com deteno. Nesse artigo, a lei 9296 tambm criticada por alguns
autores, pois ela contraria a boa prtica da legislao, onde deveriam ser descritas as

34

Captulo 3. Aspectos Legais

hipteses em que a interceptao admitida [Greco Filho, 1996]. Apesar da polmica,


esse artigo mostra a importncia dada pelo legislador ao direito privacidade pois, de
acordo com essas excees, esse bem s poder ser maculado diante de srias razes.
Outros dois pontos que se destacam nessa lei que a interceptao telefnica se
dar em autos apartados, apensados aos autos do inqurito policial ou do processo penal
e que no artigo 9o ela dene as formas de destruio das gravaes que no interessar em
uma investigao ou processo. Dessa forma, o legislador, mesmo permitindo excees
ao direito de sigilo nas comunicaes, demonstra uma preocupao em presevar ao
mximo a privacidade do investigado.
Finalmente, a lei 9296 revoga parcialmente o artigo 151 inciso II do Cdigo Penal
Brasileiro [Congresso Nacional, 1940], visto anteriormente. tornando crime no s a
transmisso ou divulgao indevida de contedo da comunicao telefncia, mas tambm o ato de interceptao de comunicaes telefnicas, de informtica ou telemtica
sem autorizao judicial, conforme o artigo 10 a seguir:
Constitui crime realizar interceptao de comunicaes telefnicas, de informtica ou telemtica, ou quebrar segredo da Justia, sem autorizao
judicial ou com objetivos no autorizados em lei
. Com esta nova redao, a simples interceptao constitui crime, o que fundamental
para a anlise deste trabalho. Alm disso, esse artigo prev uma pena de recluso de
dois a quatro anos e multa, tornando a punio para quem incorre nesse crime muito
mais severa do que a lei anterior.

Aspectos Relevantes para a Coleta e Anonimizao


Diante do exposto, confrontaremos nessa seo o nosso entendimento da legislao
em vigor com a coleta de dados de trfego de rede. Apesar dos bons argumentos contra
a permisso constitucional da intercepo com autorizao judicial de comunicaes de
dados, tornando esse direito absoluto; ao analisar os argumentos da corrente contrria, junto com algumas decises de nossos tribunais, me parece que o entendimento
de que a Constituio permite a interceptao judicial tanto das comunicaes telefnicas quanto nas comunicaes de dados, deve ser a interpretao vlida, entendendo
portanto, que o pargrafo nico da artigo 1o da lei 9296/96 constitucional.
Devemos primeiramente separar os dois tipos de dados que a comunicao de
dados possui: o primeiro o contedo da comunicao, o outro so os dados de registros,

3.3.

Brasil

35

os quais so necessrios para a realizao e controle da comunicao.


Fazendo um paralelo com as conexes telefnicas, as operadoras tm necessidade
de manter os dados de registros para fazer a tarifao de servios. Esses dados possuem
informaes tcnicas como, por exemplo, hora da chamada, durao, etc, e informaes pessoais como nmero do telefone, registro de chamada, etc. Consequentemente,
podemos concluir que o armazenamento dos dados de conexo no proibido, mas a
sua divulgao fere o direito de privacidade institudo na Constituio de 1988 em seu
artigo 5o inciso X e s pode ser autorizado atravs de uma ordem judicial.
Portanto, se os dados de conexo de rede forem equiparados aos da telefonia, os
administradores de rede podem coletar e armazenar esses dados e at mesmo manipullos, desde que sejam utilizados para o bom funcionamento da atividade. Entretanto,
quanto ao repasse desses dados a outrem, entendo que estaria contrariando a determinao legal. Entendo tambm que h a possibilidade de compartilhamento desses
dados caso os mesmos passem por um processo de anonimizao que torne invivel
a identicao do dono da informao e consequentemente garanta a privacidade dos
dados.
Com relao ao contedo da comunicao, ou seja, o payload do pacote TCP ou
UDP, entendo que a lei 9296 clara: s pode ser coletado/interceptado por ordem
judicial e esta s poder ser concedida quando houver indcios de autoria de crime
punvel com recluso e no houver possibilidade de prova por outros meios. Esses
dados devem ainda car armazenados em local seguro ao qual apenas o responsvel ou
a autoridade policial tenham acesso.
Continuando o paralelo entre a interceptao de comunicaes de dados e de
telefone, acredito que tecnicamente seja muito mais complicado executar a coleta da
comunicao de uma determinada pessoa ou do seu computador pessoal. Isto ocorre
porque no caso da interceptao telefnica, o pedido deve ser feito para um nmero de
telefone determinado, mas na interceptao de dados esse pedido na maioria das vezes
no ter condies de especicar qual endereo deve ser interceptado, pois o usurio
poder a cada conexo Internet obter um endereo IP diferente.
Dessa forma, a monitorao dever ser feita na operadora que o usurio suspeito
cliente, pois s ela teria condies de saber qual o endereo o computador do suspeito
estaria utilizando. Na telefonia o nmero do telefone no se altera, mas a quebra de
sigilo solicitada junto operadora do suspeito.

36

Captulo 3. Aspectos Legais

3.3.2

Projetos de Lei em Tramitao

Devido grande repercuso que os crimes de informtica vm tendo, temos no Congresso Nacional diversos projetos que regulamentam questes relativas a informtica.
Dentre eles, destacamos dois projetos que achamos de maior relevncia, o primeiro o
projeto 494/2000 [Senado Federal, 2008] que tem como principal caracterstica seguir
em linhas gerais o contedo das diretivas europeias. J o segundo o projeto que tem
tido muito destaque na mdia devido polmica criada sobre o controle do uso da Internet, mais conhecido como o Projeto do Senador Eduardo Azeredo [Senado Federal,
2009], ele um substitutivo de outros trs projetos que estavam em tramitao no
Senado Federal, como veremos em seguida.

3.3.2.1

Projeto de Lei 494 de 2008

Esse projeto de lei foi proposto pela Comisso Parlamentar de Inqurito (CPI) sobre
a pedolia e tem em seu artigo 1o a descrio dos seu objetivo.
Essa lei disciplina a forma, os prazos e os meios de preservo e transferncia de dados informticos mantidos por fornecedores de servio e autoridades pblicas, para ns de investigao de crimes praticados contra
crianas e adolescentes.
Apesar de direcionada para investigao de crimes de pedolia, esse projeto tem
muita similiaridade com as diretivas 58/2002 e 24/2006 da Unio Europia, conforme
mencionado no incio desse captulo. No artigo 2o o projeto dene trs tipos de fornecedores de servio: de telecomunicaes, de acesso e de contedo ou interativo. Neste
mesmo artigo so denidas trs categorias de dados: de conexo, cadastrais do usurio
e relativos ao contedo da comunicao. Na primeira categoria esto os dados necessrios para realizar uma conexo; a segunda engloba apenas os cadastros dos usurios/clientes; nalmente a categoria dos dados trafegados propriamente ditos, onde se
encontra o contedo da comunicao.
No artigo 3o , determinado um prazo de 3 anos para a manuteno dos dados
e de conexes para os fornecedores de servio de telecomunicaes e de acesso e de 6
meses para os fornecedores de contedo ou interativo. Alm disso, ela determina em
seu artigo 7o que em qualquer fase da investigao criminal envolvendo delitos contra
crianas e adolescentes, esses dados devem ser transferidos para a autoridade policial
ou Ministrio Pblico sem ordem judicial prvia e os dados de contedo apenas com
autorizao policial.

3.3.

Brasil

37

Outro artigo que gerar polmica o artigo 8o , pois ele determina que a autoridade
policial poder, sem autorizao judicial, solicitar a preservao imediata dos dados de
contedo, para ns de investigao de crimes envolvendo crianas e adolescentes. A
transferncia desses dados para a autoridade solicitante dever ser feita apenas com
autorizao judicial.
Finalmente, no artigo 14, esse projeto prev que o Poder Executivo estabelecer
padres e formatos para solicitaes e as respostas a pedidos, por dados. Isso ajudar
os administradores a fazer a coleta com mais segurana.

3.3.2.2 Substitutivo dos Projetos de Lei 89/2003, 137/2000 e 76/2000


Este projeto conhecido popularmente com a Lei do Azeredo, pois ele foi o relator
dos projetos de lei citados no ttulo e propos um projeto que os substituiu. Inicialmente, esse projeto substitutivo causou muita polmica, pois ele criava vrios crimes
que no entendimento de muitos eram mal denidos e por consequncia criava situaes
absurdas.
Depois de vrias discusses este projeto sofreu diversas modicaes na sua redao inicial que amenizaram as polmicas sobre o assunto. Este substitutivo foi aprovado
no Senado em julho de 2009 e foi encaminhado para a Cmara dos Deputados, e mesmo
depois de modicado, ele ainda apresenta alguns artigos que afetam o nosso tema e,
portanto, discutiremos a seguir.
Em seu artigo 3o , ele acrescenta um tipo penal ao artigo 154 do Cdigo Penal,
criminalizando, a divulgao ou utilizao indevida de informaes e dados pessoais.
Divulgar, utilizar, comercializar ou disponibilizar dados e informaes
pessoais contidas em sistema informatizado com nalidade distinta da que
motivou o seu registro, salvo nos casos previstos em lei ou mediante expressa
anuncia da pessoa a que se referem, ou de seu representante legal. Pena:
deteno de um a dois anos, e multa.
No artigo 16, este projeto traz vrias denies de termos relacionados a informtica, tais como, dispositivo de comunicao, sistema informatizado, rede de computadores, cdigo malicioso, dados informticos e dados de trfego. As duas ltimas
denies so de nosso interesse relatar.
Dados informticos: qualquer representao de fatos, de informaes
ou de conceitos sob forma suscetvel de processamento numa rede de computadores ou dispositivo de comunicao ou sistema informatizado;

38

Captulo 3. Aspectos Legais

Dados de trfego: todos os dados informticos relacionados com sua comunicao efetuada por meio de uma rede de computadores, sistema informatizado ou dispositivo de comunicao, gerados por eles como elemento de
uma cadeia de comunicao, indicando origem da comunicao, o destino,
o trajeto, a data, o tamanho, a durao ou o tipo de servio subjacente.
Para nalizar no seu artigo 22 esse projeto prope o armazenamento dos dados
relativos conexo por trs anos, delimitando em seu inciso I o prazo e o tipo de dado
que deve ser armazenado, mas limitando o seu fornecimento autoridade investigatria
mediante autorizao judicial. E em seu inciso II ele determina que outros dados, que
se presume que so os dados da comunicao, devem ser preservados aps requisio
judicial, respondendo civil e penalmente pela sua condencialidade e inviolabilidade.

Aspectos Relevantes para a Coleta e Anonimizao


Aps analisar a legislao existente e compar-la com a regras estabelecidas em
outros pases, acho que alguns artigos do projeto 494/2008 so inconstitucionais.
No artigo 7o , que dispe sobre o acesso e transfrencia dos dados, em seu caput
ele autoriza a transferncia dos dados em qualquer fase da investigao ou processual.
Esse texto constitucional, mas acredito que ele altera o inciso III do artigo 2o da lei
9296, que diz que o fato investigado deve ser uma infrao penal punida com recluso.
J no inciso I desse mesmo artigo, considero que o mesmo contraria o direito
privacidade, pois ele determina a transferncia dos dados de conexo para as autoridades competentes sem autorizao judicial. Novamente fazendo um paralelo com as
comunicaes telefnicas, o sigilo das conexes s quebrado com autorizao judicial.
Nessa mesma linha o inciso II desse artigo no contraria a nossa Constituio.
Outro artigo que nos parece inconstitucional o artigo 8o , pois ele determina ao
fornecedor de contedo que preserve os dados relativos ao contedo da comunicao
apenas com a solicitao da autoridade policial. Como determinado pela Constituio,
a interceptao somente permitida com a autorizao judicial.
Como mencionado anteriormente o artigo 14 interessante ao estabelecer que
o Poder Executivo ir determinar os padres e formatos de solicitaes e respostas,
facilitando a tarefa do administrador de redes pois, como vimos, existem diversas formas
de coleta de dados.
No que diz respeito ao tema do nosso trabalho esse projeto no interfere muito
no que j estabelicido na legislao atual, pois para a pesquisa ele continuar no

3.3.

Brasil

39

podendo utilizar-se do contedo dos pacotes e em relao aos dados de conexo, esses
s podero ser utilizados se forem anonimizados antes do uso.
J o projeto substitutivo do Senador Eduardo Azeredo, apesar de no distinguir
claramente os dados de comunicao dos dados de conexo, enumera os dados que tm
obrigatoriedade de ser mantidos. Outro ponto mal denido o responsvel por fazer a
manuteno desses dados, o termo est muito genrico dentro a gama de entidades que
fazem o provimento de acesso a rede de computadores mundial. Os pontos positivos so
os itens relativos reteno dos dados, este projeto est de acordo com o que foi visto
na nossa legislao em vigor e portanto, parece estar de acordo com o que estabelece
nossa Constituio.

Captulo 4
Aspectos Tcnicos
Como visto nos captulos anteriores, os pacotes de trfego contm vrias informaes
essenciais para a comunicao de rede. Alm das informaes contidas dentro dos
dados transmitidos pela aplicao, diversos campos dos cabealhos da pilha TCP/IP
podem conter informaes que identicam algum usurio e/ou equipamento de rede e
que afetam diretamente a sua privacidade e a segurana da rede.
Neste captulo analisaremos os aspectos tcnicos da anonimizao de dados, comeando com uma anlise de cada um dos campos dos cabealhos dos principais protocolos
da arquitetura TCP/IP, destacando quais campos podem ser usados para a violao
da privacidade e a segurana dos sistemas. Em seguida vamos discutir as tcnicas
de anonimizao existentes, com nfase para a anonimizao de endereos. Por m,
veremos mais detalhadamente algumas das principais ferramentas de anonimizao de
dados existentes.

4.1 Aspectos relacionados anonimizao na


arquitetura TCP/IP
Como vimos anteriormente, a arquitetura TCP/IP composta de quatro camadas,
onde cada camada possui um ou mais protocolos, que fazem o encapsulamento das
mensagens na transmisso de dados. Como discutido anteriormente, em cada camada
um protocolo responsvel por incluir seu cabealho frente dos dados da camada
superior e repassar esse pacote (dados recebidos mais o cabealho includo) para a
camada inferior. No recebimento dos dados, o processo invertido e cada um dos
protocolos retira seu cabealho e repassa os dados para a camada acima, at que a
informao seja entregue aplicao.
41

42

Captulo 4. Aspectos Tcnicos

As sees a seguir descrevem as principais funcionalidades de cada camada e os


principais protocolos encontrados em cada uma. Primeiramente ser feita um anlise
das informaes contidas nos cabealhos de cada protocolo e, em seguida, sero identicados os campos que possuem implicaes quanto a questes de privacidade dos
usurios e segurana da rede. A gura 4.1, d uma idia de como os protocolos esto
distribudos nas camadas.

Figura 4.1. Camadas TCP/IP e alguns de seus protocolos

4.1.1

Aplicao

Nessa camada encontram-se os protocolos das aplicaes existentes. Como discutido


na seo 2.5.1, a anlise de protocolos de aplicao exige conhecimento especco sobre
cada protocolo e aplicao em particular, o que no tarefa simples. Entretanto, um
adversrio que tenha interesse em extrair informaes do contedo dessas mensagens
teria condies de faz-lo caso essa informao estivesse disponvel. Como cada aplicao tem seus detalhes particulares, manter esses dados de forma anonimizada e segura

4.1.

Aspectos relacionados anonimizao na arquitetura TCP/IP 43

em um arquivo de registro de trfego no considerado uma tarefa factvel na maior


parte dos casos.
Devido a essa diculdade, na maioria das vezes essa informao no coletada:
administradores comumente conguram coletores como o tcpdump para coletar apenas
os primeiros bytes de cada pacote, em nmero suciente para cobrir os cabealhos
dos protocolos at a camada de transporte. Ferramentas de anonimizao tambm
normalmente removem essa informao.
Isto no signica que essa camada no seja importante e no seja necessria a
sua vericao, mas que a sua anlise no caso de trfego de rede se resume a identicar
a existncia de dados ou no. A informao disponvel nessa camada, mesmo no
sendo todo o contedo do pacote, pode causar um grande prejuzo para a privacidade
dos usurios. Nesse sentido, uma questo importante seria identicar se, no processo
de coleta/anonimizao de uma certa amostra de trfego, os dados foram realmente
removidos de cada pacote, ou se todos os pacotes de rede foram apenas truncados em
um certo comprimento, o que pode permitir que, em determinados casos, alguns bytes
de dados ainda estejam presentes e em certos casos, apenas alguns bytes podem revelar
informaes privadas.

4.1.2 Transporte
A camada de transporte na arquitetura TCP/IP, atualmente, tem dois protocolos de
maior relevncia: o Transmission Control Protocol (TCP) e o User Datagram Protocol
(UDP).

4.1.2.1 UDP
O protocolo UDP conhecido por no ser orientado a conexes e no oferecer garantias
de entrega. Com isso, ele possui um nmero reduzido de campos em seu cabealho,
pois no tem funes mais complexas. Os campos que ele possui so porta de origem
e destino do pacote, comprimento do cabealho e soma de vericao.
Os campos porta de origem e porta de destino, so os campos que identicam a terminao da conexo. Geralmente, aplicaes padronizadas possuem uma
porta padro na qual o sistema operacional car aguardando uma conexo, por esse
motivo, portas trazem a identicao da aplicao.
Em seguida, temos o campo Comprimento do cabealho (HLEN); como
o prprio nome diz, ele informa o tamanho do cabealho UDP, j que este pode ter
tamanho varivel. Por ltimo, temos o campo soma de verificao de cabealho
(checksum ), sua funo vericar a integridade do pacote recebido.

44

Captulo 4. Aspectos Tcnicos

Aspectos Relevantes para a Anonimizao


Os campos porta de origem e porta de destino, como vimos, servem para
identicar o processo/aplicao de origem e destino do datagrama. Esses campos so
muito importantes para a pesquisa em redes, porque muitas anlises levam em considerao qual a porta que est sendo acessada, ou aplicao est sendo utilizada.
O problema que a descoberta, por um adversrio, que determinado servidor
aceita conexo em uma certa porta considerada uma falha de segurana, pois essa
informao indica qual servio executado nesse servidor, com essa informao o adversrio poder explorar possveis falhas de segurana existentes nesse servio.
Com relao privacidade, ela pode ser afetada na medida em que se descobre
que a mquina de determinada pessoa acessou um servio de um determinado servidor.
Por exemplo, se uma pessoa conectou um servidor HTTP que disponibiliza apenas
contedo ilegal. Entretanto, para isso necessrio que se descubra o endereo das
mquinas envolvidas e quem usou esse endereo, ou seja, apenas a informao da porta
no suciente para que a privacidade de algum seja invadida.
O campo soma de verificao (checksum ), como visto, formado pelo resultado da soma de complemento de um do cabealho e dados do pacote UDP. Com
essa soma de complemento de um, campos menores que 32 bits so passveis de serem
descobertos se apenas um campo de at 16 bits for anonimizado, pelo checksum possvel inferir qual seria o valor original. Como os dados utilizados em alguns campos
so dados considerados sensveis ao anonimato e a segurana, esse campo deve ser anonimizado para evitar esses riscos. Esse campo importante para a pesquisa devido
sua funo de identicar se o pacote foi transmitido sem erros. Assim sendo, existem
tcnicas que anonimizam esse campo utilizando cdigos para identicar se houve erros
ou no [Blanton, 2009], mas isso diculta a anlise dos dados, pois o administrador de
rede dever saber qual o padro de cdigo utilizado pela ferramenta de anonimizao.
Outra opo, diante da necessidade de anonimizao, que ele seja recalculado de
acordo com o novo cabealho. Caso ele tenha identicado erro, ele deve ser regerado com
erro, dessa forma atenderia necessidade de anonimizao sem afetar a pesquisa. O
grande problema dessa soluo que os dados so utilizados para calcular esse campo.
Ou seja, levando em considerao que os pacotes tenham sido coletados sem os dados,
ou pelos menos, apenas uma pequena parte foi coletada devido opo padro do

tcpdump, no vivel saber se o campo est correto ou no. Isso nos leva concluso
que o campo pode ser anonimizado sem uma soluo que atenda as expectativas dos
pesquisadores.

4.1.

Aspectos relacionados anonimizao na arquitetura TCP/IP 45

4.1.2.2 TCP
O protocolo TCP o protocolo orientado a conexes e como visto na seo 2.4, possui
funcionalidade de ordenao e conrmao de recebimentos dos pacotes. Para implementar essas caractersticas possui diversos campos de controle no seu cabealho,
conforme ilustra a gura 4.2.

Figura 4.2. Cabealho do pacote TCP


Os primeiros dois campos so as portas de origem e portas de destino, e
tm a mesma funo dos campos homnimos do protocolo UDP.
Outro campo desse protocolo o nmero de sequncia, que tem como principal funo enumerar e identicar cada pacote de uma conexo, para que as funes de
conrmao e ordenao dos pacotes possam ser implementadas. O campo seguinte o
nmero de confirmao, que indica o nmero do ltimo byte que o receptor rece-

beu com sucesso na sequncia de dados. Em seguida, temos o campo Comprimento


do cabealho (HLEN), como no UDP informa o tamanho do cabealho TCPP, j

que este pode ter tamanho varivel. O campo reservado foi criado para utilizao
futura, mas atualmente ele no utilizado.
Alm de transmitir o dados de uma aplicao, o cabealho TCP pode tambm
ser utilizado para conrmar o recebimento dos dados, solicitar o estabelecimento ou
encerramento da conexo. Para identicar essas informaes em pacotes TCP, foi
denido o campo flags ou bits de cdigo, que possui 6 bits, onde cada um indica uma
funcionalidade do pacote. O primeiro bit, URG, indica a existncia de dados urgentes
no pacote; em seguida, o bit ACK indica que o valor do campo de reconhecimento
vlido; o bit PSH indica que o receptor deve repassar os dados para a camada superior;
o bit RST encerra uma conexo com erro; o bit SYN sincroniza o nmero de sequncia
no estabelecimento de uma conexo e, nalmente, o bit FIN indica o m de uma
conexo.

46

Captulo 4. Aspectos Tcnicos

A seguir, temos o campo anncio de janela, que muito importante na funcionalidade de controle de congestionamento do TCP, pois indica o nmero de bytes que o
receptor pode aceitar ser enviado a partir do ltimo byte conrmado [Peterson & Davie,
2003]. Temos ainda o campo soma de verificao que similar ao campo com
mesmo nome visto no protocolo UDP.
Em seguida o campo opes disponibiliza funcionalidades no obrigatrias,
como a negociao do tamanho mximo dos pacotes (MSS), o uso de conrmao
seletiva (SACK), marca de tempo dos segmentos (timestamp ) e aumento do tamanho
da janela de transmisso (WSCALE). E por m o campo preenchimento (padding )
tem a funo de garantir que o cabealho ser mltiplo de 32 bits.

Aspectos Relevantes para a Anonimizao


O campo de nmero de sequncia identica a posio dos bytes dos dados no
seguimento a ser transmitido. Esse campo utilizado por algumas ferramentas para
identicao do sistema operacional da mquina que enviou o pacote, pois cada sistema
operacional pode ter um padro diferente na inicializao desse nmero [Nmap, 2009].
A descoberta dessa informao pode afetar diretamente a segurana da rede, pois se
o adversrio souber o endereo da mquina, ele pode tentar explorar alguma falha de
segurana especca daquele sistema operacional. Ao mesmo tempo, essa informao
pode facilitar a identicao de determinada mquina, caso o sistema operacional seja
muito especco. Sendo assim, ele tambm um campo importante para sofrer alteraes no processo de anonimizao. Como nos campos porta de origem e porta
de destino ele importante para os pesquisadores, pois atravs desse campo que

se consegue identicar que aquele pacote pertence a determinado uxo de informao.


Da mesma forma que o campo nmero de seqncia, atravs dos campos
de anncio de janela e opes do TCP pode ser possvel identicar o sistema
operacional que originou o pacote, portanto eles podem ocasionar as mesmas falhas
de segurana e privacidade vistas no campo anterior. Por outro lado, a anonimizao
desses campos no afeta muito a pesquisa, pois geralmente eles no so usados para
avaliao de nenhum evento. Outros campos relevantes para a anonimizao, como
visto no protocolo UDP, so as portas de origem e portas de destino e a soma de
verificao. Todos devem seguir as recomendaes apresentadas na seo anterior.

4.1.

Aspectos relacionados anonimizao na arquitetura TCP/IP 47

4.1.3 Camada de Rede


A camada de rede principalmente denida, na arquitetura TCP/IP, pelo protocolo
IP (Internet Protocol ). Alm dele, outros protocolos importantes que merecem meno
neste trabalho so ARP, ICMP e protocolos de roteamento como RIP, OSPF e BGP.
No contexto atual possvel encontrar na rede pacotes de duas verses diferentes
do protocolo IP: IPv4 e IPv6. Apesar da primeira ainda ser dominante, possvel que
no futuro a Internet migre para usar a verso 6 de forma predominante. Sendo assim,
neste trabalho discutimos as duas verses, apesar de mantermos um foco maior na
verso 4, ainda a mais comum.

4.1.3.1 IPv4
Como ilustrado na gura 4.3, o cabealho IPv4 possui vrios campos de controle para
conseguir enviar um pacote para outra mquina conectada Internet. O primeiro
campo a verso do protocolo e, como o prprio nome indica, identica a verso
do protocolo IP utilizada para criar o pacote. Dependendo do valor desse campo,
o restante do pacote interpretado de acordo com a denio do cabealho daquela
verso do protocolo IP (4 ou 6).
Em seguida, o campo comprimento do cabealho (HLEN) especica o comprimento do cabealho. O tipo de servio um campo de 8 bits que determina
como o pacote deve ser tratado pelos roteadores, por exemplo, com prioridade, alta
conabilidade, etc. Originalmente ele era ignorado, mas mais recentemente algumas
aplicaes de multimdia passaram a usar esse campo e alguns roteadores passaram a
interpret-los para tentar melhorar a qualidade de transmisses desse tipo de servio.
O campo seguinte o comprimento total do pacote, incluindo os dados.

Figura 4.3. Cabealho do pacote IPv4P

48

Captulo 4. Aspectos Tcnicos

Na segunda linha visto o campo identificao que um nmero nico que


identica cada pacote enviado por uma mquina. Em seguida vem o campo flags,
usado para controlar a fragmentao do pacote IP. Tambm com a funo de ajudar
a controlar a fragmentao do pacote, o campo deslocamento de fragmento
(oset ) identica o deslocamento do fragmento do pacote em relao ao tamanho total
do pacote original.
Na linha seguinte temos o campo tempo de vida (TTL), que controla o tempo
mximo que o pacote pode permanecer na rede. Ao gerar um pacote, o transmissor
coloca um valor inicial nesse campo. A cada roteador ou mquina por onde esse
pacote passa, esse valor decrementado. Caso o valor do campo chegue a zero, o
roteador dever descartar o pacote. Em seguida, o campo protocolo especica qual
o protocolo da camada de transporte criou a mensagem que est sendo transportada
no pacote.
O prximo campo verificao da soma de cabealho (checksum ) que
utilizado para vericar se os valores do cabealho do pacote recebido esto ntegros.
Diferentemente do campo de vericao dos protocolos TCP e UDP, o clculo feito
apenas sobre o cabealho, no sendo utilizado o payload. Esse campo atualizado por
todos os roteadores que manipulam o pacote, pois, como visto, eles fazem alteraes
no cabealho IP, ao decrementar o TTL.
Os campos seguintes so os endereos IP de origem e destino. Esses campos
so formados por quatro bytes cada e identicam unicamente o emissor e o destinatrio
do pacote IP. O endereo IP contm duas informaes: parte dele enderea a rede,
ou seja, identica a qual rede o equipamento pertence e a segunda parte identica
unicamente o equipamento na rede.
Por ltimo temos os campos opes e enchimento. O primeiro utilizado
basicamente para especicar funcionalidades opcionais. E o segundo serve apenas para
garantir que cabealho IP seja mltiplo de 32 bits, j que as opes podem ter comprimento varivel.

Aspectos Relevantes para a Anonimizao


Dos campos apresentados acima, alguns podem ser usados para a quebra de privacidade e/ou segurana da rede. Por exemplo, o campo tipo de servio utilizado
por algumas ferramentas na identicao de sistema operacional (OS FingerPrint ). A
forma como esse campo usado tem certa relao com o tipo de sistema operacional.

4.1.

Aspectos relacionados anonimizao na arquitetura TCP/IP 49

Outros campos do cabealho IP que so importantes para este tipo de ataque so


os campos de comprimento total, identificao, o bit de no fragmentao
do campo ags e o tempo de vida (TTL).
Como visto, o campo de verificao da soma do cabealho (checksum ) do
protocolo IP se diferencia do TCP, por no estar presente no seu clculo os dados do
pacote. Entretanto, como ele tambm calculado com dados do cabealho, possvel
us-lo para extrair alguma informao do cabealho e isto pode afetar a segurana da
rede ou o anonimato do usurio.
Como no protocolo TCP, esse campo tambm importante para os pesquisadores,
pois possvel extrair a informao de nmero de pacotes que so recebidos com erros.
A diferena que no caso do protocolo IP, os dados usados para o seu clculo geralmente
esto disponveis e, portanto, possvel vericar se ele foi gerado com erro ou no.
Dessa forma, a ferramenta de anonimizao poder analisar se o campo est correto e
reger-lo a partir do cabealho anonimizado, mantendo tanto a informao sobre se o
pacote foi entregue corretamente, quanto a segurana da rede e anonimato do usurio.
Por terem a funo de identicar unicamente a origem e destino do pacote, os
campos de endereo IP de origem e de destino, contm claramente informaes
sensveis privacidade e segurana. Como visto, esses endereos, alm de identicar
unicamente um equipamento, podem fornecer informaes sobre a frequncia de acesso
de um determinado equipamento ou de uma determinada rede, portanto so muito
importantes para os pesquisadores. Devido sua importncia existem vrios estudos
para se encontrar um meio-termo para a questo de anonimizao de endereos IP,
onde se consiga preservar as informaes interessantes para a pesquisa, sem que essas
informaes afetem a privacidade e a segurana da rede. Pela importncia desse ponto,
a seo 4.3 trata desse assunto com maiores detalhes.

4.1.3.2 IPv6
Devido limitao de nmeros IP na verso IPv4, foi proposta uma nova verso para
o protocolo IP que o IPv6, onde foram feitas vrias mudanas no cabealho. A
principal o aumento do tamanho do endereo IP, que passa de 32 para 128 bits.
Apesar dessa mudana, ser necessrio o mesmo tipo de anlise da verso anterior, e
os mtodos de anonimizao devero ser os mesmos, considerando apenas o aumento
do tamanho do campo.
Outra modicao foi no campo opes, mas como no endereo IP esse campo
precisar ainda de anonimizao, pois a nova verso prev opes com valores padro,
que podero causar o mesmo problema na identicao do sistema operacional, caso

50

Captulo 4. Aspectos Tcnicos

estes alterem o valor padro. Tambm no IPv6, foi criado o campo que provavelmente
necessitar ser anonimizado que o identicador de uxo, pois poder conter dados
que identiquem a origem e o destino do pacote.
Muitos dos demais protocolos da camada de rede e outros de aplicao possuem
verses adaptadas para utilizar IPv6. Do ponto de vista deste trabalho, entretanto,
essas alteraes no trazem novos elementos e nas sees a seguir discutimos apenas a
verso associada ao IPv4. Pode-se considerar que os mesmos problemas e solues se
aplicaro no caso do IPv6.

4.1.3.3

ARP

O protocolo ARP permite que uma mquina identique o endereo fsico de um host de
destino na mesma rede fsica. Para isso a origem envia uma mensagem broadcast ARP
pela rede fsica solicitando o endereo de hardware do equipamento (tambm chamado
de MAC Address ) que possui determinado endereo IP. Todas as mquinas recebem a
mensagem, mas apenas o equipamento com aquele IP responde a mensagem incluindo
o seu endereo de hardware.
Para realizar essa tarefa o protocolo ARP possui um formato de mensagem com
vrios campos, para que ele possa ser til para diferentes tecnologias de rede onde os
campos de endereos podem ter tamanhos variados. O campo tipo de hardware
identica o tipo de hardware para o qual o transmissor espera uma resposta, por exemplo, Ethernet. Da mesma forma, o campo tipo de protocolo identica o protocolo do
nvel de rede cujo endereo est sendo usado. Assim, a funcionalidade dos campos
HLEN e PLEN permitir a adaptao a vrias tecnologias de rede, pois eles especi-

cam o tamanho do endereo do hardware e do endereo de protocolo, respectivamente.


O campo operao usado para identicar o tipo de operao do protocolo, por
exemplo, solicitao, resposta, etc.
Por m, temos os campos sender HA, que identica o endereo de hardware do
emissor, sender IP que identica o endereo IP do emissor, target HA que identica
o endereo de hardware do destinatrio e nalmente, o target IP que identica o
endereo IP do destinatrio.

Aspectos Relevantes para a Anonimizao


Os campos sender HA e target HA so os endereos de hardware do emissor
e destinatrio do pacate no padro IEEE 802, usados em tecnologias como Ethernet,

4.1.

Aspectos relacionados anonimizao na arquitetura TCP/IP 51

redes sem o e outras, so formados por seis bytes. Os trs primeiros identicam um
lote de endereos que pode ser comprado pelos fabricantes do hardware. Sendo assim,
com os trs primeiros possvel identicar o fabricante do equipamento, o que pode
representar uma ameaa privacidade e segurana caso o hardware utilizado seja muito
especco. A segunda parte do endereo um nmero nico dentro da numerao do
lote que identica cada unidade fabricada.
Esse campo costuma ser importante para quaisquer anlises, pois pode indenticar cada equipamento, ou identicar erros em produtos de um determinado fabricante.
Devido a essas caracterticas, as tcnicas anonimizao devem tentar preservar ao mximo essas informaes importantes, entretanto, sem revelar o fabricante do equipamento ou o nmero original de cada dispositivo.
J os campos sender IP e target IP so os endereos IP da origem e do destino
da mensagem ARP. Eles identicam o endereo IP de origem e destino do pacote ARP.
Como discutido anteriormente, temos um interesse especial por esse campo, pois o
mesmo endereo do protocolo IP, ou seja, muito importante que esses campos, ao
serem anonimizados, no deixem vestgios dos seus valores originais. Se possvel, a
anonimizao desses campos deve seguir o mesmo tipo de anonimizao dos endereos
dos pacotes do protocolo IP.

4.1.3.4 ICMP
Como os pacotes IP so trocados com base na poltica de melhor esforo, sem conrmao de entrega ou conexo, quando h algum erro o protocolo IP no possui nenhum
recurso para comunicar origem do pacote que algo est errado. Para isso existe o
protocolo Internet Control Message Protocol (ICMP), que tem como funo informar
erros entre os elementos de conexo da rede e permitir a troca de mensagem de controle.
O pacote ICMP ca dentro da rea de dados do IP e o formato de seu cabealho
varia de acordo com o tipo de mensagem que ele est enviando. As mensagens ICMP
devem ser tratadas com cuidado, pois alm de possurem os campos do IP, possuem
no seu cabealho campos como a soma de vericao que calculada com o prprio
pacote. Alm disso, as mensagens de erro causadas por um certo pacote IP levam em
seu payload os 64 primeiros bits daquele pacote. Em outros tipos de mensagem, pode
ser includo o endereo do roteador que a origem deve enviar o pacote IP.
Devido s informaes que esto no pacote ICMP e variadade de tipos de ferramentas de anonimizao deve-se ter muito cuidado ao tratar o ICMP. Descartar
simplesmente o pacote pode no ser uma opo, pois eles tambm podem ser importantes para a anlise, pois ajudam a identicar problemas na rede. Por outro lado,

52

Captulo 4. Aspectos Tcnicos

o ataque de injeo de dados, explicado na seo 2.3, usualmente se baseia no envio


pelo atacante de mensagens ICMP e pode permitir que o adversrio consiga identicar
determinada mquina. A necessidade de retirar isso pode ser um fator importante que
justique os pacotes que podem congurar um ataque dos logs anonimizados.

4.1.3.5

Protocolos de Roteamento

Em uma anlise usual de uma rede comum assumir que os pacotes so sempre roteados
adequadamente para seu destino, presumindo que os roteadores conhecem de antemo
todos os destinos dos pacotes que trafegam pela rede. Isso na prtica no ocorre, e a
funo de roteamento de pacotes pelo melhor caminho difcil de ser implementada,
exigindo o uso de protocolos de roteamento para se identicar caminhos viveis.
Para isso, foram criados diversos protocolos de roteamento, dentre eles destacamse o BGP, OSPF e RIP. Cada um desses protocolos possui tcnicas diferentes para tentar
obter a informao do melhor caminho por onde o pacote deve ser repassado, montando
a chamada tabela de roteamento. Para isso, eles possuem mensagens que podem ser
usadas para obter informaes de rotas que podem ser utilizadas pelos adversrios. Em
uma , por exemplo, para obter detalhes de uma topologia de rede de uma organizao,
o que interfere na segurana da mesma.
Mensagens de roteamento tambm podem possuir informao de endereos de

hardware que podem, como visto anteriormente, interferir no anonimato. Entretanto,


na maioria das vezes essa informao relativa a um roteador da rede e no uma mquina de usurio, o que representa um problema menor do ponto de vista de anonimato.
Diante do exposto interessante que esse tipo de pacote seja removido dos logs
pelas ferramentas de anonimizao.

4.1.4

Camada de Tecnologia de Rede Local

Essa camada, como denida originalmente na arquitetura TCP/IP, costuma ser dividida em camadas de enlace e camada fsica, tomando emprestadas as denies dessas
camadas do modelo OSI/ISO 1 . Entretanto, para os ns deste trabalho adotamos a
denio original da arquitetura TCP/IP.
Na camada de rede local encontramos diversas tecnologias, como token-ring,
FDDI, redes sem o, enlaces PPP e Ethernet. Apesar dessa grande variedade, Ethernet
a tecnologia de maior penetrao no momento atual e a que tem maiores implicaes em termos de questes de segurana e privacidade, por esse motivo ela ser o foco
desta discusso.
1 http://www.iso.org/iso/home.htm

4.2.

Tcnicas de Anonimizao de Dados

53

Alm disso, nessa camada, o principal elemento para questes de anonimizao a


noo de endereo fsico, normalmente denominado endereo MAC em redes Ethernet.
Esse tipo de endereo hoje padronizado e compartilhado por todas as tecnologias de
rede agregadas em padres IEEE 802. Assim sendo, a discusso desses endereos se
aplica a todas as tecnologias de rede dessa famlia.
O quadro Ethernet possui seis campos, o campo prembulo usado para sincronizao do receptor do sinal. Em seguida, temos os campos de endereo de destino
e origem do quadro. Como discutido anteriormente, esse endereo possui 6 bytes
atribudo a cada dispositivo de rede.
Aps os endereo, aparece o tipo de quadro, que identica o tipo de protocolo do
nvel de rede receber o quadro. Por ltimo, o campo CRC (Cdigo de Redundncia
Cclica) tem como funo a identicao de erros ocorridos durante a transmisso do
quadro.

Aspectos Relevantes para a Anonimizao


Como mencionado, os nicos campos que inuenciam na privacidade e segurana
da rede so os endereos de origem e destino do quadro. Esses campos, conforme a
seo 4.1.3.3, so importantes para a pesquisa, pois possvel indenticar cada mquina
de uma rede local, ou at mesmo saber se pacotes de determinado fabricante gerado
com algum problema. Assim sendo, se esses campos no forem anonimizados, possvel
inferir de qual equipamento saiu determinado pacote e, consequentemente, descobrir a
identidade do usurio associado a ela.

4.2 Tcnicas de Anonimizao de Dados


Diante da necessidade de se manter a privacidade dos dados e a segurana das redes,
surgiram as chamadas ferramentas de anonimizao de dados, que denem um conjunto
de polticas e tcnicas desenvolvidas para tentar garantir a privacidade dos usurios
de redes e outros servios, tentando preservar a qualidade das informaes necessrias
para o desenvolvimento de pesquisas, anlises gerenciais e auditorias.
Uma soluo aparentemente bvia para garantir a privacidade simplesmente
excluir dos dados as informaes consideradas sensveis do ponto de vista de privacidade
e segurana. Infelizmente, dessa forma pode-se destruir a qualidade dos dados para a
pesquisa, pois eles, por exemplo, no podero ser separados em funo de suas origens e

54

Captulo 4. Aspectos Tcnicos

destinos. Diante disso, pode ser necessrio, ao invs de excluir as informaes, substitulas por outras que mantenham parte da informao, por exemplo, as caractersticas
que separam os endereos IP em diferentes mquinas, apesar de no permitir sua
identicao. Nesse caso, necessrio garantir que a partir desses identicadores no
seja possvel deduzir o valor original dos dados.
Para tentar anonimizar os dados garantindo que as informaes sensveis segurana e ao anonimato sejam eliminadas, foram criadas vrias tcnicas de anonimizao.
Veremos a seguir, que h um compromisso envolvendo essas tcnicas de anonimizao,
pois quanto melhor a anonimizao (no sentido do alto grau de diculdade para
reverter a anonimizao) pior a qualidade desses dados para a pesquisa.

4.2.1

Substituio por Black Marker

O nome black marker foi dado por Slagell et al. [2006]. Essa tcnica implementada
pela maioria das ferramentas de anonimizao, e tem como principal caracterstica
substituir as informaes relevantes por um valor constante, equivalendo excluso
das informaes.
Essa tcnica tem uma anonimizao muito forte, por ser praticamente impossvel
para um adversrio inferir a informao original, pois o nico padro dessa tcnica o
valor usado como black marker. Por outro lado, essa tcnica praticamente inutiliza o
dado anonimizado para anlise, pois perde-se qualquer correlao entre os dados. Por
exemplo, com o uso do black marker no possvel correlacionar eventos entre os vrios
pacotes endereados para uma mesma rede.
Existem algumas variaes dessa tcnica como, por exemplo, usar o black marker
em partes do campo. Em um endereo IP pode-se anonimizar com essa tcnica apenas
os dois ltimos bytes do campo, por exemplo. Outra variao a tcnica chamada de

truncation, que ao invs de substituir a informao, apenas a elimina.

4.2.2

Substituio Aleatria

Como o prprio nome diz, essa tcnica faz uma substituio de valores em todas as
ocorrncias de um mesmo campo por valores aleatrios, mantendo entretanto, a relao
entre valores anonimizados e valores originais. Isto , cada valor encontrado pela
primeira vez substitudo por um valor aleatrio; novas ocorrncias do mesmo valor
original so sempre substitudos pelo mesmo valor j anonimizado. Basicamente o
anonimizador se vale de uma tabela que vai sendo preenchida com os valores utilizados.
Essa tcnica interessante porque ela diculta a identicao dos valores ori-

4.2.

Tcnicas de Anonimizao de Dados

55

ginais, pois a anonimizao feita de forma aleatria, mas ainda mantm algumas
caractersticas importantes para a anlise, pois permite que as distribuies de valores em cada campo se mantenham, mas est sujeita a ataques de injeo de dados,
descritos na seco 2.3.

4.2.3 Criptograa
A criptograa utilizada nas mais diversas reas para a segurana e sua caracterstica
substituir informaes existentes por outras, mantendo um mesmo padro de substituio, mas diferentemente da substituio aleatria, os valores originais dos campos
no so substitudos de forma aleatria e sim gerados atravs de um chave criptogrca. Dessa forma, se a mesma chave for usada vrias vezes o valor original sempre ser
anonimizado pelo mesmo valor, facilitando o processamento paralelo dos arquivos, pois
em todos eles os valores sero anonimazados da mesma forma.
Este tipo de anonimizao mantm o dado com um certo nvel de qualidade para
a pesquisa, porque se as informaes iguais so sempre substitudas por outras tambm
iguais, possvel fazer uma correlao entre os vrios pacotes de um arquivo de log.
O problema que, havendo essa correlao, esse log ca mais suscetvel a ataques de
injeo de dados, descritos na seo 2.3.

4.2.4 Deslocamento
A tcnica de deslocamento consiste em somar ao valor a ser anonimizado um valor xo
(s vezes combinado a um pequeno desvio aleatrio), alterando em todo arquivo de log
determinado campo com a mesma variao. Essa tcnica nos lembra a criptograa,
pois mantm o mesmo valor para os campos iguais, mas diferentemente daquela, os
valores so sempre gerados a partir de um valor xo somado ao valor do campo. Essa
anonimizao geralmente utilizada em campos relativos a tempo.

4.2.5 Preservao de prexos


A tcnica de preservao de prexos consiste em usar uma substituio aleatria ou
com criptograa, porm preservando as relaes entre prexos dos dados originais. Em
alguns campos da arquitetura TCP/IP o mesmo campo pode conter duas informaes diferentes, por exemplo, no campo endereo IP, os primeiros bytes identicam
a rede a qual pertence determinada mquina e os bytes nais identicam a mquina
univocamente na rede.

56

Captulo 4. Aspectos Tcnicos

Segundo Slagell et al. [2006] dois endereos anonimizados que compartilham um


prexo de n bits s foram anonimizados com a tcnica de preservao de prexos, se
e somente se os endereos originais (no anonimizados) compartilham o prexo de n
bits.

4.3 Anonimizao de Endereos IP


O endereo IP, por identicar univocamente uma equipamento na Internet, o campo
mais visado em ataques, pois identicando uma mquina, um adversrio pode identicar um servidor para invadir, ou pode ainda identicar individualmente um usurio,
pois muitas das vezes uma mquina utilizada apenas por uma pessoa. Alm disso,
endereos IP identicam tambm a rede de origem de um pacote e o uxo de pacotes
de uma conexo. Por isso, ele tambm o campo mais utilizado para as pesquisas e
anlises. Assim sendo, quanto mais essa informao for preservada, maior a qualidade
dos dados.
Devido a esse compromisso, o endereo IP tornou-se o campo de maior visibilidade
entre os pesquisadores de tcnicas de anonimizao, pois muito importante anonimizlo de forma segura e ao mesmo tempo garantindo que suas caractersticas principais se
matenham para que a pesquisa no seja prejudicada.
A anonimizao de endereo IP usando a tcnica de black marker muito segura
com relao identicao da rede ou dos endereos que aquele log contm. Mas tem
um efeito drstico quanto anlise, pois sem a idencao de origem e destino dos
pacotes, no se consegue extrair quase nenhuma informao dos dados.
J a substituio aleatria e a criptograa so utilizadas na anonimizao de endereo IP para tentar manter as caractersticas que ele possui, sem afetar a privacidade
e segurana da rede. A grande diferena entre os dois mtodos que quando se usa
a mesma chave na criptograa, a transformao de determinada informao sempre
ter o mesmo resultado; diferentemente da substituio aleatria que gera uma valor
diferente a cada vez que utilizada. Sendo assim, na substituio por criptograa
possvel identicar que dois pacotes foram gerados por um mesma origem. O problema
que, dependendo do tipo de chave sendo utilizada para anonimizar ou at mesmo o
tipo de ataque, possvel inferir o valor original do dado.
Na anonimizao de endereos IP a tcnica mais recomendada a preservao de
prexos. Isso se deve importncia do endereo IP para as pesquisas e o fato dele ser
normalmente tratado de um forma hierarquizada com base em prexos. Essa tcnica
consiste em manter entre dois endereos que possuem um determinado nmero de bits

4.4.

Ferramentas de Anonimizao

57

iniciais iguais, a mesma quantidade de bits iguais aps a anonimizao. Sendo assim,
os bits iniciais que dois endereos IP compartilham so sempre transformados de forma
idntica [Burkhart et al., 2008a].
Xu et al. [2002] dene formalmente a anonimizao com preservao de prexo:
Dois endereos IP a = a1 a2 ...an e b = b1 b2 ...bn compartilham um
prexo de kbits (0 k n), se a1 a2 ...ak = b1 b2 ...bk e ak+1 6= bk+1 , onde k
< n. Uma funo de anonimizao dita ser de preservao de prexo, se
dado dois endereos IP a e b estes compartilham um prexo de kbits, F(a)
e F(b) tambm compartilham um prexo de kbits.
Dessa maneira, a preservao de prexo permite que os endereos IP mantenham
a relao hierrquica entre si aps a anonimizao, permitindo a identicao de uxos de pacotes de uma mesma rede, o que torna esse tipo de anonimizao mais til
para os pesquisadores que utilizam essa informao, por exemplo, para entender o
comportamento do roteamento [Xu et al., 2001].
Entretanto, o compromisso existente entre a qualidade da anonimizao e a qualidade da informao restante, faz com que essa maior permanncia de informao nos

logs implique em uma maior fragilidade na privacidade dos dados e na segurana da


rede, pois os dados cam mais suscetveis a ataques. Por exemplo, com a separao
das mquinas ataques como ngerprinting [Ribeiro et al., 2008], ataques de injeo
de dados [Slagell & Yurcik, 2004] e ataques que inferem as mquinas atravs do seu
comportamento [Coull et al., 2007], se tornam mais visveis em certos casos.

4.4 Ferramentas de Anonimizao


Como vimos na seo 2.6, existem diversas ferramentas de anonimizao. Algumas
ferramentas so mais simples e aplicam tcnicas de anonimizao apenas em alguns
campos, por exemplo, no endereo IP. Outras, alm de anonimizar uma quantidade
maior de informao, so mais exveis, permitindo at a implementao de novas
funes que podem ser adicionadas ferramenta. Nessa seo discutimos com mais
detalhes os principais trabalhos nessa rea.

4.4.1 Tcpdpriv
Desenvolvido em 1996, o tcpdpriv [Minshall, 1996] uma das mais antigas e conhecidas ferramentas de anonimizao. Ela anonimiza os dados coletados diretamente da

58

Captulo 4. Aspectos Tcnicos

interface de rede ou atravs de arquivos de sada do tcpdump. Sua importncia to


grande que ela citada em quase todos artigos sobre anonimizao de dados.

Tcpdpriv remove os payloads dos pacotes UDP e TCP e remove toda a rea de
dados do protocolo IP para outros tipos de protocolos. Quanto aos demais protocolos,
ela capaz de gerar diversos nveis de anonimizao, desde anonimizao colocando
zero nos valores dos campos (black marker ) at a anonimizao mantendo o mesmo
endereo IP anonimizado para as vrias ocorrncias de um endereo IP no arquivo
original e a tcnica de preservao de prexos. Alm disso, para evitar a identicao
do sistema operacional que gerou o pacote ela no preserva o campo de opes de TCP.
Xu et al. [2002] fazem uma crtica tcnica de preservao de prexos implementada pelo tcpdpriv pois, segundo os autores, a chave geradora dos endereos IP
anonimizados aleatria ento o tcpdpriv gera um tabela que relaciona os endereos
IP originais e seus endereos anonimizados correspondentes. Essa tcnica faz com que
um mesmo endereo IP seja anonimizado com endereos diferentes a cada vez que a
ferramenta executada. Como logs de trfego em geral so grandes eles tendem a ser
armazenados em vrios arquivos. O tcpdpriv no permite que se faa uma anonimizao simultnea de vrias partes de um mesmo log. A proposta de Xu et al. [2002] para
solucionar esse problema gerar os novos endereos atravs de uma chave criptogrca,
ou seja, se a chave for mantida, um endereo IP ser sempre transformado para um
mesmo valor.

4.4.2

Crypto-Pan

Xu et al. [2002] implementam a tcnica de anonimizao de preservao de prexo


mencionada utilizando uma rvore trie, onde o endereo IP transformado em uma
seqncia de bits e cada bit representado por um nodo na rvore. usado ento
um algoritmo de criptograa que seleciona determinados nodos do trie para terem o
seu valor invertido. Esse algoritmo baseado em uma chave que poder ser usada
em diversas anonimizaes, permitindo que se faam anonimizaes paralelas, gerando
valores iguais para os endereos anonimizados.

4.4.3

Tcpmkpub

Diante da tarefa de disponibilizar os dados do Lawrence Berkely National Lab (LBNL),


um centro de referncia em pesquisas com protocolos TCP/IP no incio da Internet,
Pang et al. [2006] enfrentaram dois problemas: o primeiro que no encontraram nenhuma poltica de anonimizao que atendesse suas necessidades e, aps desenvolve-

4.4.

Ferramentas de Anonimizao

59

rem a sua poltica, no encontraram nenhuma ferramenta que anonimizasse os traces


de acordo com tal poltica. Foi ento que desenvolveram o tcpmkpub para implementar a poltica de anonimizao que tinham desenvolvido. Seu objetivo era fazer uma
anonimizao que mantivesse um equilbrio entre retirar as informaes no limite da
segurana e privacidade, e manter o mximo de informao importante para a anlise
de trfego.
O tcpmkpub uma ferramenta de anlise de dados coletados pelo tcpdump que
no prev anonimizao de dados online. Ela disponibiliza aos usurios um framework
para manipulao de pacotes de rede a partir de regras especicando cada um dos
campos do cabealho, seu tamanho em bytes e a ao de anonimizao desejada para
o campo.
O nome do campo formado atravs de um padro de nomes para cada um dos
campos: geralmente, o nome do protocolo, seguido do caracter underline, seguido de
um nome indicativo do campo; por exemplo, IP_src representa o campo endereo de
origem do protocolo IP.
O campo ao representa qual procedimento a ferramenta deve executar para
aquele campo. O tcpmkpub fornece trs opes: a primeira KEEP, que mantm os
dados originais do arquivo de log ; outra opo ZERO, que limpa as informaes do
campo (black marker ). A terceira opo fornecer o nome de uma funo em C++ que
ser responsvel pela transformao do campo.
O tcpmkpub disponibiliza algumas dessas funes C++ para alguns campos, como
o endereo IP, opes de IP, etc; cada uma dessas funes executa um mtodo de
anonimizao especco para os campos. Alm disso, como discutido anteriormente, a
ferramenta prev a adio de novas funes em C++, permitindo que o usurio implemente a sua prpria poltica de anonimizao para determinado campo.

4.4.4 Framework for Log Anonymization and Information


Management (FLAIM)
Possuir uma grande variedade de algoritmos de anonimizao, ter suporte a muitos
formatos de log, suportar vrios nveis de anonimizao e ter uma arquitetura modular
extensvel; estas so as quatros propriedades que, segundo Slagell et al. [2006], uma ferramenta de anonimizao de logs deve possuir. O FLAIM foi desenvolvido para atender
a todos esses aspectos.
A primeira caracterstica preconiza ter uma grande variedade de algoritmos de
anonimizao. Como vimos na seo 4.2, devido ao compromisso entre privacidade e
qualidade dos dados, foram desenvolvidas vrias tcnicas de anonimizao, nas quais

60

Captulo 4. Aspectos Tcnicos

algumas priorizam a privacidade sem se preocupar em manter a qualidade dos dados


para a anlise posterior e outras se preocupam em atingir um nvel de privacidade que
mantenha as informaes relevantes para a anlise.
O FLAIM possui, para cada campo do cabealho, diversos algoritmos de anonimizao como, por exemplo, black marker, permutao randmica e preservao de
prexo. Alm disso, ele possui o suporte a vrios tipos de logs como, por exemplo, arquivos tcpdump e netflow. Alm disso, a ferramenta possui a capacidade de se adaptar
poltica de anonimizao do usurio, pois determinado usurio pode querer que um
campo seja anonimizado e outro no; que um campo seja anonimizado utilizando o algoritmo black marker e que outro seja anonimizado utilizando a tcnica de preservao
de prexo.
Por m, FLAIM possui a capacidade de receber novas funcionalidades atravs de
novos mdulos de funes. Isto , alm dos mdulos que ele j disponibiliza, possvel
adicionar novos, que ampliem a sua capacidade de receber outros de tipos de arquivos
de logs ou at mesmo adicionar novos algoritmos de anonimizao.
O FLAIM consegue trabalhar com arquivos de logs estticos ou com dados coletados online. Para anonimizar um log de acordo com sua poltica de anonimizao, essa
ferramenta utiliza um arquivo em formato XML onde o usurio pode especicar, para
cada campo dos cabealhos da arquitetura TCP/IP, que tipo de anonimizao deve ser
executada.
Abaixo um exemplo de um do arquivo de congurao do FLAIM que exemplica
diversas tcnicas de anonimizao, discutidas logo em seguida.
<policy>
<field name="IPV4_DST_IP">
<BinaryPrefixPreserving>
<passphrase>abracadabra</passphrase>
</BinaryPrefixPreserving>
</field>
<field name="IPV4_SRC_IP">
<BinaryBlackMarker>
<numMarks>8</numMarks>
<replacement>0</replacement>
</BinaryBlackMarker>
</field>
<field name="TS_SEC">

4.5.

Concluso

61

<RandomTimeShift>
<lowerTimeShiftLimit>60</lowerTimeShiftLimit>
<upperTimeShiftLimit>600</upperTimeShiftLimit>
<secondaryField>NONE</secondaryField>
</RandomTimeShift>
</field>
<field name="SRC_MAC">
<BinaryRandomPermutation/>
</field>
<field name="DST_MAC">
<BinaryBlackMarker>
<numMarks>24</numMarks>
<replacement>0</replacement>
</BinaryBlackMarker>
</field>
</policy>

O exemplo acima dene seis campos a serem anonimizados, a congurao de


cada campo delimitada pelos cdigos <field NomedoCampo> e </field>. O primeiro
campo apresentado o endereo IP de destino (IPV4_DST_IP) e determinado a utilizao da tcnica de preservao de prexo utilizando a palavra abracadabra como
chave. Em seguida, temos o campo IP de origem (IPV4_SRC_IP) que ser anonimizado a tcnica de black marker, os cdigos <numMarks> e <replacement> determinam
o nmero de bits que sero anonimizados e o valor que ser utilizado, respectivamente.
Em seguida temos o campo dos segundos do timestamp (TS_SEC). Para ele se
utilizar a tcnica de deslocamento com um componente aleatrio: o deslocamento ser
um valor aleatrio gerado entre 60 e 600. Depois temos o campo endereo de hardware
de origem (SRC_MAC) que utilizar a tcnica de permutao. J o campo endereo
de hardware de destino (DST_MAC) ser anonimizado com a tcnica de black marker
em 24 bits, com o valor zero.

4.5 Concluso
Neste captulo foram analisados cada um dos campos dos cabealhos dos principais
protocolos da arquitetura TCP/IP, sendo identicados os campos que podem compro-

62

Captulo 4. Aspectos Tcnicos

meter a privacidade e/ou segurana da rede. Foram vistas as principais tcnicas de


anonimizao de logs, tendo maior destaque a anonimizao de endereos IP. Por m,
vimos algumas das ferramentas de anonimizao e suas as tcnicas que elas utilizam.

Captulo 5
Metodologia Proposta
A metodologia proposta tem como objetivo auxiliar os administradores de rede na
tarefa de coleta e disponibilizao de dados de rede. Essa disponibilizao pode ser
solicitada pelos pesquisadores de uma empresa ou universidade ou at mesmo por uma
ordem judicial, que solicitaro os dados de acordo com uma poltica de anonimizao
que os auxiliaro em alguma pesquisa ou processo.
Diante desse pedido, que provavelmente pode vir acompanhado com uma ferramenta de anonimizao a ser utilizada ou das exigncias sobre quais dados podem ou
no ser ocultados (e como isso pode ser feito), o administrador de rede provavelmente
no ter a certeza que a sua expectativa de anonimizao ser atingida e, principalmente, no saber se os dados disponibilizados constituiro uma ameaa segurana
da sua rede ou se permitiro algum tipo de quebra da privacidade dos seus usurios.
Devido grande quantidade de dados que esses logs de rede podem gerar, analisar
esses dados manualmente para conferir se os dados foram anonimizados de acordo com
a poltica solicitada, se torna uma tarefa impossvel. Por isso, propomos o desenvolvimento de uma ferramenta que compara o arquivo original com o arquivo anonimizado
e faa uma anlise de quais dados foram anonimizados e qual o mtodo utilizado. A
seguir discutimos as caractersticas dessa ferramenta.

5.1 Arquitetura
A ferramenta proposta vem suprir a necessidade de automatizar a tarefa de anlise dos
arquivos anonimizados, conforme mostra a gura 5.1, a ferramenta desenvolvida tem
como entrada o arquivo de log original e o mesmo arquivo anonimizado pela ferramenta
de anonimizao sugerida.
Em seguida, a ferramenta compara os pacotes encontrados nos dois arquivos. Essa
63

64

Captulo 5. Metodologia Proposta

comparao avalia se os campos considerados sensveis do ponto de vista da segurana


da rede e/ou privacidade sofreram algum tipo de alterao. Se for detectada alguma
mudana provvel que determinado campo sofreu algum tipo de anonimizao, que
precisa ento ser qualicada.
Finalmente, um relatrio deve ser produzido, descrevendo as concluses da anlise, identicando os campos que foram ou no anonimizados e as formas de anonimizao utilizadas. Com base nessa informao o relatrio deve tambm apresentar
uma discusso do possvel impacto de cada transformao aplicada (ou falta de tal
transformao) para as polticas de privacidade e segurana da organizao.
Idealmente, uma ferramenta que implemente essa arquitetura deveria ser congurvel e extensvel em cada uma dessas etapas. Novos mdulos que veriquem padres
especcos ou que analisem um novo protocolo no previsto originalmente deveriam poder ser adicionados de forma simples. Arquivos de congurao poderiam determinar
exatamente quais testes deveriam ser aplicados e at denir de forma completa uma
poltica de anonimizao desejada. Nesse caso, o relatrio poderia ser simplicado para
indicar apenas se o arquivo atende ou no s exigncias da poltica proposta. Na seo

?? ser apresentado um prottipo desenvolvido com base na metodologia proposta, que


realiza um conjunto de testes pr-denidos para demonstrar o conceito.

5.2 Fases da Metologia


A metodologia proposta para a ferramenta de anlise de anonimizao de logs prope
que o pacote seja analisado em todas as camadas da arquitetura TCP/IP ( Tecnologia
de Rede Local, Rede, Transporte e Aplicao).

5.2.1

Identicao dos Pares dos Pacotes

Primeiramente, os dois arquivos de entrada podem no conter exatamente os mesmos


pacotes, pois ltros podem ser aplicados retirando completamente certos pacotes do
arquivo original. Isso pode ser feito para restringir o foco, no arquivo a ser disponibilizado, a pacotes que atendam um certo critrio (como manter apenas trfego HTTP),
ou por que certos pacotes podem ser considerados sensveis demais para serem distribudos (como pacotes de protocolos de roteamento, em certos casos). Nesse caso,
deve-se fazer uma comparao entre os pacotes de cada arquivo para identicar o par
de pacote a ser analisado. Para isto, a primeira anlise dever ser feita no campo de
marca de tempo (timestamp ) que o tcpdump inclui no arquivo.

5.2.

Fases da Metologia

65

Figura 5.1. Funcionamento da Ferramenta Proposta

No suciente, entretanto, realizar uma comparao direta dos valores desse


campo nos dois arquivos, por dois motivos importantes: primeiro, em redes rpidas,
devido resoluo limitada do campo de timestamp do tcpdump, diversos pacotes
podem ter o mesmo tempo associado a eles; segundo, em certos casos, como discutido
anteriormente, o prprio timestamp pode ser anomizado, seja com um deslocamento
simples (igual) de todos os tempos, ou por um deslocamento com um componente
aleatrio.
Para resolver o primeiro problema, da unicidade dos tempos, outros campos de
pouco interesse para a segurana e o anonimato podem ser usados na diferenciao dos
pacotes, como os identicadores dos protocolos de enlace (rede local), rede e transporte,

66

Captulo 5. Metodologia Proposta

que usualmente so mantidos. Para o problema do deslocamento dos timestamps,


necessrio aplicar-se um algoritmo de casamento de padres temporais, que busque
identicar um casamento entre os pacotes que valide os intervalos de tempo entre eles.
Isso possvel, desde que o deslocamento seja simples (onde basta encontrar o valor de
deslocamento aplicado para que todos os pacotes se alinhem) ou que o valor aleatrio
adicionado seja pequeno em relao maioria dos intervalos. (Esse normalmente o
caso, pois normalmente deseja-se apenas ocultar o momento exato em que o log foi
coletado.

5.2.2

Camada de Tecnologia de Rede Local

Depois de identicar os pares de pacotes correspondentes, deve-se primeiro analisar


o pacote no nvel de rede local e vericar se o pacote Ethernet (ou, basicamente,
qualquer protocolo ISO 802); caso no seja, a ferramenta deve possuir regras para
avaliao do protocolo especco indicado. Em um primeiro momento, recomenda-se
apenas a contabilizao desses pacotes, j que a maior parte do trfego hoje coletada
em redes desse tipo. No caso de pacotes Ethernet, deve-se vericar os endereos de
origem e destino dos quadros, vericando quantos pacotes foram anonimizados e o
mtodo utilizado para isso.
Alm disso, caso o pacote seja ARP deve-se fazer uma vericao se os endereos
foram anonimizados de forma idntica aos endereos de hardware do pacote desse
protocolo, caso um mapeamento de endereos preciso (mesmo que anonimizado) seja
desejvel.

5.2.3

Camada de Rede

Na camada de rede deve-se testar o tipo de pacote, ARP, IP, ICMP ou algum protocolo
de roteamente. Caso o pacote seja ARP, como mencionado na seo anterior, deve-se
vericar se h consistncia entre a anonimizao dos endereos de hardware com o
endereos do pacote. Caso o pacote seja ICMP ou de algum protocolo de roteamento,
a ferramenta dever alertar sobre os riscos da presena desse tipo de pacote no arquivo
anonimizado.
Se o pacote for IP, a ferramenta ter que analisar se houve algum tipo de anonimizao em alguns dos campos. Para os campos tipo de servio, comprimento
total, identificao, bit de no fragmentao do campo flags e o campo tempo
de vida (TTL), deve-se fazer apenas uma vericao de quantos pacotes no tive-

ram esses campos anonimizados, pois, como vimos, esses campos so utilizados para

5.2.

Fases da Metologia

67

descobrir o sistema operacional da mquina.


Em seguida temos o campo checksum. Pode ser importante analisar se o pacote
original tinha algum erro e se o checksum do pacote anonimizado foi alterado para
mant-lo correto (ou errado) como no pacote original, aps a anoimizao. Como
discutido anteriormente, este campo calculado com base em dados de outros campos
do cabealho, o que pode em certos casos permitir a um atacante recompor dados
originais que deveriam ter sido removidos.
Por ltimo, deve-se analisar o endereo IP de origem e de destino. Essa anlise
deve ser minuciosa, devido importncia desses campos na identicao de algum
usurio da rede. Se for vericada a existncia de anonimizao a ferramenta dever
identicar o mtodo utilizado. Essa identicao pode exigir a coleta de dados sobre
todos os endereos encontrados no log.

5.2.4 Transporte
Na camada de transporte, primeiramente deve ser identicado se o pacote TCP ou
UDP (um outro protocolo exigiria regras de processamento particulares e deveria ser
claramente identicado no relatrio). Caso ele seja UDP, deve ser vericado se houve
anonimizao do campo soma de verificao (pela possibilidade de recuperao de
informao sensvel em alguns casos) e dos campos porta de origem e destino.
Estes ltimos podem ser importantes em anlise de trfego por protocolo, mas at
essa informao pode ser anonimizada em certos casos, pois a identicao de protocolos usados pode levar identicao de servidores ativos que podem ser atacados,
constituindo-se em uma ameaa de segurana em certos casos.
J no TCP, alm dos mesmos testes vistos no UDP, deve-se testar tambm os
campos nmero de seqncia, janela e opes do TCP para vericar se houve anonimizao, pois esses campos so utilizados pelos ataques de identicao de sistema
operacional, entre outros.

5.2.5 Aplicao
Finalmente, na camada de aplicao deve-se testar se h algum payload no pacote anonimizado, pois os dados contidos nele podem revelar informaes privadas dos usurios.
Caso exista algum pacote com payload, mesmo que seja apenas uma frao dos dados
originais, deve ser alertado do grande risco que essa informao pode trazer privacidade das pessoas, caso o arquivo de logs seja disponibilizado para a anlise. Uma
anlise mais detalhada de dados de aplicao normalmente de difcil implementao,

68

Captulo 5. Metodologia Proposta

pela grande variedade de aplicaes possveis e da interpretao dos dados de cada uma
em termos de anonimato.

5.2.6

Anlise da anonimizao de endereos

Como discutido anteriormente, para os diversos tipos de endereos encontrados na


arquitetura TCP/IP (como endereos de rede local, IP, nmeros de portos) a anlise do
padro de anonimizao adotado exige a coleta de informaes sobre todos os endereos
encontrados. Idealmente, deve-se montar um mapeamento entre endereos encontrados
no arquivo original e os endereos a eles associados no arquivo anonimizado. A partir
da, diversas observaes devem ser feitas.

Se algum endereo for encontrado no arquivo anonimizado sem transformao,


isso deve ser claramente indicado no relatrio, pois pode consitituir uma falha do
processo de anonimizao.
Se as relaes entre os dois mapeamentos forem de um para muitos, os dados
de identicao de mquinas individuais provavelmente foram removidos do arquivo. importante, entretanto, uma vericao cuidadosa para determinar se o
mesmo padro se aplica a todos os endereos e que no h endereos que recebem
tratamento diferenciado.
Se for observada uma relao 1:1 entre os dois conjuntos, o processo de anonimizao no utilizou a tcnica de blackmarker. Isso pode ser til na anlise de
comportamento de mquinas, mas pode constituir uma ameaa s polticas em
alguns casos. Para se vericar se foi utilizada uma tcnica de preservao de prexos, pode-se montar um trie binrio para cada um dos dois conjuntos e vericar
a equivalncia da topologia de ambos (e da localizao das chaves) [Xu et al.,
2002].

interessante vericar-se a distribuio estatstica dos endereos encontrados nos


dois conjuntos, por exemplo, pode-se utilizar a funo de distribuio cumulativa
(CDF) para identicar a frequncia com que os endereos aparecem em cada
conjunto.

Caso se conhea o prexo da rede da organizao onde o trfego foi coletado


(normalmente disponvel se a ferramenta for aplicada no momento da coleta)
interessante fazer o tratamento separado dos endereos da prpria organizao
e dos endereos externos. Algumas ferramentas podem usar tcnicas diferentes
em cada caso; uma ferramenta maliciosa poderia mascarar alguns endereos e

5.3.

Prottipo

69

no outros, por exemplo, para tentar extrair informaes que comprometam a


segurana da rede.
Diversas anlise mais sosticadas so ainda possveis sobre os conjuntos de endereos coletados, como tcnicas de avaliao da qualidade da informao disponvel,
tcnicas de anlise de correlao e similares, j discutidas anteriormente.

5.3 Prottipo
Durante o trabalho foi desenvolvido um prottipo da ferramenta proposta, seguindo
os passos bsicos da metodologia. O objetivo nesse caso era vericar a viabilidade de
certos tipos de processamento, identicar os pontos mais complexos do processamento
e colocar em prtica os conceitos envolvidos.
Para o desenvolvimento, foram analisadas diversas plataformas para manipulao de arquivos de log de trfego de redes considerando o formato pcap usado pelo

tcpdump, hoje considerado um padro para essa rea. Existem diversas ferramentas
que fazem a anlise desses arquivos, mas todas com objetivos j bastante especcos que
no poderiam se alteradas para os nossos objetivos. Procuramos ento bibliotecas de
programao que simplicassem o desenvolvimento de uma nova ferramenta. Apesar de
haver bibliotecas at para a linguagem C para esse m, a caracterstica hierrquica, em
camadas, da arquitetura TCP/IP, faz com que o processamento dos diversos protocolos
encapsulados nos pacotes coletados seja mais simples em uma linguagem orientada a
objetos.
Bibliotecas orientadas a objetos para processamento de arquivos no formato PCAP
se aproveitam do fato de que cada entrada do arquivo possui certos campos em comum,
presentes em todos os pacotes (os campos de controle criados durante a coleta e os
campos do cabealho do nvel de rede local). Uma classe bsica descreve ento apenas
esses campos e permite seu acesso direto a partir das entradas do arquivo. Com base nas
informaes dos protocolos dos nveis inferiores pode-se identicar o tipo do protocolo
de cada camada superior. Para se analisar ento os campos do protocolo de um novo
nvel, basta que se utilize ento uma classe derivada da classe original, porm mais
especializada para identicar os campos especcos do protocolo. Dessa forma a cada
protocolo processado identica-se o tipo do protocolo superior e promove-se o objeto
contendo o pacote extrado do arquivo para uma classe mais especca que detalha
cada protocolo.
Bibliotecas com hiearquias de classes desse tipo existem para diversas linguagens,
como Perl, Python, Ruby, C++ e Java, entre outras (e, muitas vezes, diversas bibliotecas

70

Captulo 5. Metodologia Proposta

diferentes para cada linguagem). Inicialmente experimentamos com bibliotecas para

Python [pylibpcap, 2009] e Ruby [rubypcap, 2009], mas a deciso nal foi adotar a
Java, com a biblioteca jpcap [Jpcap, 2009] para o desenvolvimento do prottipo. Essa
combinao ofereceu o melhor compromisso entre aspectos como documentao, poder
de expresso e simplicidade de utilizao.
O prottipo desenvolvido segue a metodologia proposta e tem como entrada os
nomes dos arquivos a serem analisados. O primeiro teste que executado o que
identica se os pacotes tratados nos dois arquivos so os mesmos e ele faz isso com base
no campo de tempo do tcpdump. A seguir, mostrada a parte da funo desenvolvida
que identica a diferena de segundos existente entre os pacotes iguais dos dois arquivos,
retornando esse valor para o programa, alm do tempo, o tipo de pacote e o nmero
de sequncia podem ser vericados para garantir maior conabilidade no resultado.
import jpcap.packet.*;
public class DiferencaSegundos2
{
public long dif_sec;
public void CalculaDiferenca(JpcapCaptor jpcap_real, JpcapCaptor jpcap_anon)
throws Exception
{
while(true)
{
Packet packet_anon=jpcap_anon.getPacket();
if(packet_anon==null || packet_anon==Packet.EOF) break;
while(true)
{
Packet packet_real=jpcap_real.getPacket();
if(packet_real==null || packet_real==Packet.EOF) break;
if(packet_anon.sec==packet_real.sec)
{
if(packet_anon.usec==packet_real.usec)
{
dif_sec = 0;
break;
}
else break;
}
if(packet_anon.sec!=packet_real.sec)
{

5.3.

Prottipo

71

if(packet_anon.usec==packet_real.usec)
{
dif_sec = packet_anon.sec-packet_real.sec;
break;
}

Tambm so vericados em todas as camadas da arquitetura TCP/IP se os campos identicados como campos passveis de recuperao de dados privados ou que
comprometam a segurana da rede, vistos na seo 4.1, foram realmente anonimizados. Isso feito comparando cada um desses campos do arquivo original e do arquivo
anonimizado, e ao nal gerado um relatrio com as estatticas dos campos anonimizado, conforme a gura 5.2.
a)

b)

Figura 5.2. Relatrios do Prottipo: a) Quantidade de pacotes por protocolo;


b) Endereos de hardware e endereos IP no anonimizados

Alm disso, o prottipo analisa mais detalhadamente o endereo IP, que o campo

72

Captulo 5. Metodologia Proposta

com maior risco de identicao de usurio. Ele identica se houve anonimizao nos
endereos IP e se foi utilizada anonimizao por black marker e relata a quantidade
de endereos que foram anonimizados utilizando essa tcnica. A seguir, mostrado
uma parte do cdigo que faz a anlise do endereo IP para identicar se houve ou
no anonimizao nesse campo. Nesse cdigo vemos que os endereos IP so armazenados em uma coleo de hash, tornando mais fcil a identicao de ocorrncias de
anonimizaes diferentes para o mesmo endereo IP.
if (dlp_anon.frametype == EthernetPacket.ETHERTYPE_IP)
{
IPPacket ipp_anon = (IPPacket)packet_anon;
IPPacket ipp_real = (IPPacket)packet_real;
if (ipp_anon.src_ip.equals(ipp_real.src_ip)) //IP SRC nao foi anonimizado
{
qtd_ipsrc_naoanon=qtd_ipsrc_naoanon+1;
}
else
//IP SRC foi anonimizado
{
ipsrc_real = ipp_real.src_ip.getHostAddress();
ipsrc_anon = ipp_anon.src_ip.getHostAddress();
Collection<String> col = new HashSet<String>();
}

Ao nal, alm das estatticas de anlise dos arquivos, o prottipo imprime um


relatrio indicando para cada campo que no foi anonimizado quais os riscos envolvidos
na disponibilizao daquela informao.

5.4 Concluso
Nesse captulo foi proposta uma metodologia que inclui o desenvolvimento de uma ferramenta que analisaria o arquivo de log original e o arquivo aps a anonimizao, o
principal objetivo dessa ferramenta facilitar a tarefa do administrador de rede que
precisa disponibilizar arquivos de logs para a pesquisa vericando se a informao contida em determinados campos que pode afetar a segurana da rede e/ou a privacidade
dos usurios foi anonimizado ou no.

5.4.

Concluso

73

Em seguida, feita uma anlise em cada camada da arquitetura TCP/IP, indicando quais campos devem ser comparados e o qual o tipo de anlise deve ser feito.
Por m, apresentado um prottipo dessa ferramenta que tenta comprovar a ecincia
e utilidade da ferramenta proposta.

Captulo 6
Concluso e Trabalhos Futuros
O uso da Internet cresce a cada dia e ao lado desse aumento cresce tambm a necessidade, por parte de auditores e pesquisadores, de usar os logs de trfego de rede para
propor novas solues ou analisar situaes que coloquem em risco a rede de uma empresa ou at mesmo o bom funcionamento da Internet. Para que essas pesquisas sejam
mais conveis o ideal que se utilizem dados diversicados e para isso necessrio a
troca desses dados entre as entidades de pesquisa.
Por outro lado, cresce tambm a preocupao com a circulao de dados com
informaes privadas, pois cada vez maior o nmero de banco de dados com informaes pessoais nas empresas. Diante disso, em um primeiro momento, diversos pases
comearam a legislar sobre o tratamento e a troca dos dados pessoais, regulamentando
o uso e manuteno dos mesmos. Com aumento de fraudes e crimes praticados atravs
da Internet, esses pases passaram a se preocupar com a manuteno e uso desses dados
para ajudar a solucionar esses delitos.
Dessa forma, os administradores de redes enfrentam um dilema, onde a necessidade de uso e troca de dados de conexo se torna cada dia maior e por outro lado as
legislaes limitam cada vez mais a divulgao de dados que contenham informaes
pessoais.
Diante disso, este trabalho apresentou um estudo no qual foram analisadas as
caractersticas tcnicas do trfego de rede IP sob a tica da privacidade e segurana de
rede, e tambm foi feita uma pesquisa e anlise das legislaes vigentes em alguns pases
e, claro, no Brasil, sobre o controle dos dados em geral e mais especicamente sobre
os dados de conexes de rede. Aps isso, foi proposta uma metologia e apresentada
um prottipo de uma ferramenta que auxilie o prossional a identicar se os dados que
pretende disponibilizar foram anonimizados da forma desejada.
Este trabalho, em um primeiro momento apresentou, a diculdade em lidar por
75

76

Captulo 6. Concluso e Trabalhos Futuros

um lado com a necessidade de disponibilizao de dados para a pesquisa e por outro


com a preocupao de fragilizar a segurana da rede e expor a outrem dados privados
dos usurios da rede. Depois foram mostrados os principais conceitos que envolvem o
assunto, por exemplo, privacidade, arquitetura TCP/IP, coleta de dados e anonimizao.
Em seguida, foram analisadas as legislaes existentes em alguns dos principais
pases do mundo, demonstrando o processo histrico de formao da legislao atual.
No Brasil, alm dessa viso, foram mostradas mais detalhadamente as leis existentes
e tambm as tendncias de evoluo das mesmas diante dos principais projetos de lei
em tramitao. Foi visto que as primeiras legislaes se mostraram preocupadas em
proteger a privacidade das pessoas, mas com o crescimento da criminalidade atravs
da Internet a tendncia atual o surgimento de leis que tenham um maior controle
no uso da rede, mas mantendo a preocupao de preservar, dentro de um certo limite,
a privacidade nas comunicaes eletrnicas. No Brasil, foi mostrado que apesar de
no termos uma legislao especca para a comunicao eletrnica de dados, as leis
existentes de certa forma j resguardam a privacidade dos usurios, principalmente se
equipararmos a comunicao de dados comunicao telefnica com as sua legislao e
regulamentos existentes. Tambm foi mostrado que, diante do projeto aprovado em 1o
turno no Senado Federal, a tendncia no Brasil que a nossa legislao evolua seguindo
o modelo europeu, mantendo, claro, algumas particularidades nacionais.
Aps isso, foram descritas todas as estruturas existentes da arquitetura de maior
uso na Internet, o TCP/IP, juntamente com uma anlise dos campos dos protocolos que
podem inuenciar na privacidade ou segurana de uma rede. Identicando de acordo
com a bibliograa pesquisada, todos os campos que de alguma forma interferem na
identicao e privacidade das pessoas, bem como na segurana da rede. Em seguida,
vimos que diante da necessidade de disponibilizao dos arquivos de logs, foram criadas
diversas tcnicas e ferramentas que tornam os dados annimos, tentando preservar a
utilidade desses dados para as anlises.
Finalmente, diante de toda a pesquisa feita, foi proposta uma metodologia e em
seguida apresentamos um prottipo de uma ferramenta baseada nessa metodologia,
para auxiliar os administradores a disponibilizar os arquivos de dados de conexo,
informando se o dado foi anonimizado, quais informaes foram anonimizadas e qual
a tcnica utilizada e seus riscos. Em seguida, foi apresentado o prottipo de uma
ferramenta desenvolvida com base nos preceitos da metodologia proposta.
Como trabalhos futuros, uma possibilidade o aprofundamento do estudo da legislao na rea, especialmente considerando-se que estamos em um perodo de bastante
atividade no congresso em assuntos relacionados rea. A evoluo do entendimento

77
das questes envolvidas no uso da Internet entre os membros da sociedade pode fazer
com que leis mais especcas sejam desenvolvidas, nos casos ainda no previstos na
legislao atual.
A expanso do IPv6 outro aspecto que deve ser considerado. Apesar de conceitualmente no haver elementos signicativamente novos na operao da rede com
IPv6, os endereos, por exemplo, ganham novo formato e sero distribudos de forma
ainda a ser completamente denida. Isso pode levantar problemas com a manuteno
de anonimato em relao a endereos que hoje ainda no existem.
O prottipo desenvolvido apenas uma prova de conceito para ferramenta e a
metodologia de vericao propostas neste trabalho. Uma linha clara de ao seria o
desenvolvimento de uma ferramenta completa, aproveitando melhor recursos de congurao e extenso dinmicas para criar uma ferramenta que possa ser distribuda
para uso pela comunidade. Em particular, seria necessrio desenvolver um formato
(linguagem) para a descrio do que seriam polticas aceitveis de anonimizao e divulgao de dados, de forma que a ferramenta, ao invs de gerar um relatrio nal
com recomendaes de pontos a serem considerados pelo administrador, gerasse um
relatrio simplicado, simplesmente indicando quais pontos da poltica estariam sendo
observados/violados pela anonimizao sendo considerada.

Referncias Bibliogrcas
Allman, M. & Paxson, V. (2007). Issues and etiquette concerning use of share measurement data. In ACM, editor, Proceedings of the 7th ACM SIGCOMM conference

on Internet measurement, pp. 135140.


Arthur, D. & Panigrahy, R. (2006). Analyzing bittorrent and related peer-to-peer
networks. In SODA '06: Proceedings of the seventeenth annual ACM-SIAM sympo-

sium on Discrete algorithm, pp. 961--969, New York, NY, USA. ACM Press.
Bianchi,

G.;

Rao, S.;

Boschi,

E.;

Ricciato, F.;

Gaudino,

F.;

Koutsoloukas,

L.;

Lioudakis,

Schmoll, C. & Strohmeier, F. (2008a).

preserving network monitoring:

Challenges and solutions.

G.;

Privacy-

Disponvel em

http://www.salzburgresearch.at/research/gfx/mobsum08-cameraready.pdf.
Bianchi, G.; Teoli, S. & Pomposini, M. (2008b). New directions in privacy-preserving
anomaly detection for network trac. In Proceedings of the 1st ACM workshop on

Network data anonymization, pp. 1118. ACM.


Bishop, M.; Crawford, R.; Bhumiratana, B.; Clark, L. & Levitt, K. (2006). Some
problems in sanitizing network data. In Society, I. C., editor, Proceedings of the

15th IEEE International Workshops on Enabling Technologies: Infrastructure for


Collaborative Enterprises, pp. 307312.
Blanton,

E.

(Acessado

em

01/09/2009).

Tcpurify

disponvel

em

http://irg.cs.ohiou.edu/ eblanton/tcpurify/.
Burkhart, M.; Brauckho, D. & May, M. (2008a). On the utility of anonymized ow
traces for anomaly detection. In Proceedings of the 19th ITC Specialist Seminar on

Network Usage and Trac (ITC SS).


Burkhart, M.; Brauckho, D.; May, M. & Boschi, E. (2008b). The risk-utility tradeo
for ip address truncation. In ACM, editor, Proceedings of the 1st ACM workshop on

Network data anonymization, pp. 2330.


79

80

Referncias Bibliogrficas

Congresso Nacional, B. (1940). Cdigo penal brasileiro.


Congresso Nacional, B. (1988). Constituio da repblica.
Congresso Nacional, B. (1996). Lei 9296 de 1996. Regulamenta o inciso XII do artigo
5o da Constituio da Repblica de 1988.
Coull, S.; Wright, C.; Monrose, F.; Collins, M. & Reiter, M. (2007). Inferring sensitive
information from anonymized network traces. In Proceedings of the 15th Annual

Network & Distributed System Security Symposium (NDSS 07), pp. 3547.
Coull, S. E.; Wright, C. V.; Keromytis, A. D.; Monrose, F. & Reiter, M. (2008). Taming
the devil: Techniques for evaluation anonymized network data. In Proceedings of the

16th Annual Network & Distributed System Security Symposium (NDSS'08).


Delmanto, C.; Delmanto, R. & Jnior, R. D. (1998). Cdigo Penal Comentado. Renovar.
Ferreira, A. B. d. H. (2008). Mini Aurlio. Positivo.
Gattani, S. & Daniels, T. E. (2008). Reference models for network data anonymization. In ACM, editor, Proceedings of the 1st ACM workshop on Network data

anonymization, pp. 4148.


Gomes, L. F. & Cervini, R. (1997). Interceptao Telefnica - Lei 9296, 24-07-96.
Revista dos Tribunais.
Greco Filho, V. (1996). Interceptao Telefnica. Saraiva.
Hussain, A.; Heidemann, J.; Bartlett, G.; Papadopoulos, C.; Pryadkin, Y. & Bannister,
J. (2006). Experiences with a continuous network tracing infrastructure. In ACM

SIGCOMM 05 Workshops.
Ipsumdump (Acessado em 01/09/2009). Disponvel em http://www.cs.ucla.edu/ kohler/ipsumdump/.
Jesus, D. E. d. (1997). Direito Penal, volume 2. Saraiva.
Jpcap

(Acessado

em

01/09/2009).

Disponvel

em

http://netresearch.ics.uci.edu/kfujii/jpcap/doc/.
Keardsri, W.; Teng-amnuay, Y. & Prathombutr, P. (2009). Dening privacy leves for ip
address anonymization. In 13o International Symposium on Computational Science

and Engineering (ANSCSE 13).

81

Referncias Bibliogrficas

Kelly, D. J.; Baldwin, R. O.; Raines, R. A.; Grimaila, M. R. & Mullins, B. E. (2008).
A survey of state-of-the-art in anonymity metrics. In NDA 08.
King, J.; Lakaraju, K. & Slagell, A. (2009). A taxomony and adversarial model for
attacks against network log anonymization. In SAC 09.
Kohno, T.; Broido, A. & Clay, K. C. (2005). Remote physical device ngerprinting.
In Proceedings of the IEEE Symposium on Security and Privacy.
Koukis, D.; Antonatos, S. & Anagnostakis, K. G. (2006). On the privacy risks of
publishing anonymized ip network traces. In Proceedings of the Conference on Com-

munications and Multimedia Security.


Kuenning, G. & Miller, E. L. (2003). Anonymization techniques for urls and lenames.
In Technical Report UCSC-CRL-03-05, University of California.
Luo, K.; Li, Y.; Ermopoulos, C.; Yurcik, W. & Slagell, A. (2006). Scrub-pa: A multilevel multi-dimensional anonymization tool for process accounting. In Technical

Report cs.CR/0601079, ACM Computing Research Repository (CoRR).


Mello,

M.

A.

(1992).

Voto

sobre

petio

577

acrdo

stf.

http://www.stf.jus.br/portal/jurisprudencia/listarJurisprudencia.asp?s1=PetQO.SCLA.+E+577.NUME.&base=baseAcordaos.
Minshall,

G.

(1996).

Tcpdpriv

disponvel

em

http://ita.ee.lbl.gov/html/contrib/tcpdpriv.html em 01/09/2009.
Netow

(Acessado

em

01/09/2009).

Disponvel

em

Disponvel

em

http://www.cisco.com/web/go/netow.
Nmap

(Acessado

em

01/09/2009).

http://nmap.org/book/osdetect.html.
Ntop (Acessado em 01/09/2009). Disponvel em http://www.ntop.org/.
Ohm, P.; Sicker, D. & Grunwald, D. (2007). Legal issues surrounding monitoring
during network research. In ACM, editor, Proceedings of the 7th ACM SIGCOMM

Conference on Internet Measurement, pp. 141148.


ONU (1950). Declarao universal dos direitos humanos.
Pang, R.; Allman, M.; Paxson, V. & Lee, J. (2006). The devil and packet trace
anonymization. In ACM SIGCOMM Computer Communication Review Archive,
volume 36, pp. 29--38.

82

Referncias Bibliogrficas

Pang, R. & Paxson, V. (2003). A high-level programming environment for packet trace
anonymization and transformation. In Proceedings of the 2003 Conference on Appli-

cations, technologies, Architectures, and Protocols for Computer Communications,


pp. 339  351.
Parlamento Europeu, U. E. (1981). Conveno 108. Relativa ao tratamento de dados
pessoais e proteo da privacidade no setor das telecomunicaes.
Parlamento Europeu, U. E. (1995). Directiva 95/46/ce. Relativa a proteo das pessoas
singulares no que diz respeito ao tratamento de dados pessoais e livre circulao
desses dados.
Parlamento Europeu, U. E. (1997). Directiva 97/66/ce. Relativa ao tratamento de
dados pessoais e proteo da privacidade no setor das telecomunicaes.
Parlamento Europeu, U. E. (2001). Regulamento 45/ce. Relativo proteo das pessoas
singulares no que diz respeito ao tratamento de dados pessoais pelas instituies e
pelos rgos comunitrios e livre circulao desses dados.
Parlamento Europeu, U. E. (2002). Directiva 2002/58/ce. Relativa ao tratamento de
dados pessoais e proteo da privacidade no sector das comunicaes eletrnicas
(Diretiva relativa privacidade e s comunicaes eletrnicas).
Parlamento Europeu, U. E. (2006). Directiva 2006/24/ce. Relativa conservao
de dados gerados ou tratados no contexto da oferta de servios de comunicaes
eletrnicas publicamente disponveis ou de rede pblicas de comunicaes, e que
altera a Directiva 2002/58/CE.
Peterson, L. L. & Davie, B. S. (2003). Redes de Computadores uma Abordagem de

Sistemas. Editora Campus, traduo da 3a edio.


Pinheiro, P. P. (2008). Direito Digital. Saraiva, 2a edio.
pylibpcap

(Acessado

em

01/09/2009).

Disponvel

em

http://sourceforge.net/projects/pylibpcap/.
Rabinovich, M. & Spatscheck, O. (2002). Web Caching and Replication, chapter Basic
Mechanisms for Request Distribution, pp. 231--246. Addison-Wesley.
Ramaswamy, R. & Wolf, T. (2007). High-speed prex-preserving ip address anonymization for passive measurement systems. In IEEE/ACM Transactions on Networking

(TON).

83

Referncias Bibliogrficas

Ribeiro, B.; Chen, W.; Miklau, G. & Towsley, D. (2008). Analyzing privacy in enterprise packet trace anonymization. In Proceedings of the 15th Annual Network and

Distributed System Security Symposium (NDSS 08).


rubypcap (Acessado em 01/09/2009). http://www.goto.info.waseda.ac.jp/ fukusima/ruby/pcape.html.
Senado Federal, B. (2008). Projeto de lei no 494. Disciplina a forma, os prazos e os meios
de preservao e transferncia de dados informticos mantidos por fornecedores de
servio a autoridades pblicas, para ns de investigao de crimes praticados contra
criana e adolescentes, e d outras providncias.
Senado Federal, B. (2009). Projeto substitutivo aos pls 76/2000, pls 137/2000 e plc
89/2003.
Shanmugasundaram, K. (2003). Fornet: A distributed forensic network. In Proceedings

of the Second International Workshop Mathematical Methods, Models and Architectures for Computer Networks Security.
Silva, J. A. d. (1997). Curso de Direito Constitucional Positivo. Malheiros Editores.
Slagell, A.; Lakkaraju, K. & Luo, K. (2006). Flaim: A multi-level anonymization framework for computer and network logs. In Proceedings of the 20th Large Installation

System Administration Conference (LISA'06).


Slagell, A. & Yurcik, W. (2004). Sharing computer network logs for security and
privacy: A motivation for new methodologies of anonymization. In Proceedings of

the Workshop on the Value of Security Through Collaboration (SECOVAL).


Spangler, R. (2003). Analysis of remote active operating system ngerprinting tools.
Disponvel em http://www.packetwatch.net/documents/papers/osdetection.pdf.
Steding-Jessen, K.; Vijaykumar, N. L. & Montes, A. (2008). Uso de Honeypots de
baixa interatividade para o estudo do abuso de Proxies abertos para o envio de

Spam . INFOCOMP Journal of Computer Science, xx(yy).


Tcpdump

&

libpcap

(Acessado

em

01/09/2009).

Disponvel

em

http://www.tcpdump.org.
Warren, S. D. & Brandeis, L. D. (1890). The right to privacy. harvard law review 4.
Wireshark (Acessado em 01/09/2009). Disponvel em http://www.wireshark.org/.

84

Referncias Bibliogrficas

Xu, J.; Fan, J.; Ammar, M. & Moon, S. B. (2001). On the design and performance
of prex-preserving ip trac trace anonymization. In Proceedings of the ACM SIG-

COMM Internet Measurement Workshop.


Xu, J.; Fan, J.; Ammar, M. & Moon, S. B. (2002). Prex-preserving ip address
anonymization: Measurement-based security evaluation and a new cryptographybased scheme. In Proceedings of the 10th IEEE International Conference on In

Network Protocols.

Você também pode gostar