Escolar Documentos
Profissional Documentos
Cultura Documentos
Belo Horizonte
Setembro de 2009
M528a
vii
Resumo
Pesquisadores e administradores de rede encontram-se frente a um dilema ao trabalhar
com arquivos de dados de trfego coletado: como extrair informaes teis para seu
trabalho, mas ainda garantir a privacidade dos usurios, cujas informaes trafegam
pela rede, e evitar o vazamento de informaes sensveis sobre a segurana da mesma?
Este trabalho faz um estudo sobre aspectos de privacidade e segurana no uso
e compartilhamento de arquivos de registro de trfego de rede (logs e prope uma
metodologia para anlise do processo de anonimizao de arquivos.
Inicialmente explicada a necessidade crescente de se utilizar arquivos de log para
as pesquisas sobre melhorias na Internet ou auditorias, mostrando em seguida os riscos
que o uso e o compartilhamento desses arquivos pode acarretar para a privacidade dos
usurios e a segurana da rede. Em seguida, analisamos as leis existentes em alguns
pases sobre a privacidade de dados e das comunicaes eletrnicas, dando uma idia
da sua evoluo histrica. No Brasil, so analisadas as leis existentes e alguns projetos
e tramitao no congresso nacional, sendo apontadas as implicaes legais que o uso
desses arquivos pode ocasionar para usurios e administradores de redes.
Finalmente feita uma anlise dos principais protolocos da arquitetura TCP/IP
com vistas anonimizao, indenticando quais campos daqueles protocolos podem
revelar informaes que afetem segurana da rede ou a privacidade dos usurios. Com
base nessa informao, apresentado um estudo das principais tcnicas e ferramentas
de anonizao de dados e, por m, feita a especicao de uma metodologia para
anlise dos arquivos anonimizados que complementada com a descrio do prottipo
da ferramenta baseada nesta metodologia.
ix
Abstract
Researchers and network administrators face a dicult dilemma when they work with
trac data les collected from the network: how to extract useful information for
their work and yet to guarantee the privacy of users, whose information travel through
the network, and prevent the leakage of sensitive information that may compromize
network security?
This work presents a study of aspects of privacy and safety in the use and sharing
of network trac log les, and proposes a methodology for the analysis of the le
anonimization process.
First we explain the reasons for the increasing need for the use of log les in
network research and audits, showing the risks that the use and sharing of such les
may carry for the privacy of users and the safety of the network. Next we discuss the
existing laws in some major countries that deal with the privacy of data and electronic
communications, showing their evolution over time. In Brazil, we discuss the current
laws and some proposed projects being considered in Congress and their implication
to users and network providers.
Finally, we analyze the major protocols of the TCP/IP architecture in relation
to anonimization, identifying which protocol elds may reveal information sensitive to
network safety or user privacy. Based on that analysis we present a discussion of the
major tools and techniques for data anonimization and propose a methodology for the
analysis of the quality of anonimization, which we complete with the description of a
prototype based on that methodology.
xi
Lista de Figuras
2.1
11
2.2
12
2.3
17
2.4
20
2.5
20
4.1
42
4.2
45
4.3
47
5.1
65
5.2
Relatrios do Prottipo: a) Quantidade de pacotes por protocolo; b) Endereos de hardware e endereos IP no anonimizados . . . . . . . . . . . . .
xiii
71
Lista de Tabelas
xv
Sumrio
Resumo
ix
Abstract
xi
Lista de Figuras
xiii
Lista de Tabelas
xv
1 Introduo
1.1
Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Contribuio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
2.1
Privacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Anonimizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
2.4
Arquitetura TCP/IP . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.5
14
2.5.1
Tipos de coleta . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.5.2
O processo de coleta . . . . . . . . . . . . . . . . . . . . . . . .
16
2.5.3
Discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.6
Ferramentas de anonimizao . . . . . . . . . . . . . . . . . . . . . . .
21
2.7
23
3 Aspectos Legais
25
3.1
Unio Europia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2
Amrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
xvii
3.3
Brasil
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.3.1
Legislao em Vigor . . . . . . . . . . . . . . . . . . . . . . . .
31
3.3.2
36
4 Aspectos Tcnicos
4.1
4.2
41
41
4.1.1
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4.1.2
Transporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.1.3
Camada de Rede . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1.4
52
53
4.2.1
. . . . . . . . . . . . . . . . . .
54
4.2.2
Substituio Aleatria . . . . . . . . . . . . . . . . . . . . . . .
54
4.2.3
Criptograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.2.4
Deslocamento . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.2.5
Preservao de prexos . . . . . . . . . . . . . . . . . . . . . . .
55
4.3
Anonimizao de Endereos IP
. . . . . . . . . . . . . . . . . . . . . .
56
4.4
Ferramentas de Anonimizao . . . . . . . . . . . . . . . . . . . . . . .
57
4.4.1
Tcpdpriv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
4.4.2
Crypto-Pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4.4.3
Tcpmkpub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4.4.4
4.5
ment (FLAIM) . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
5 Metodologia Proposta
63
5.1
Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
5.2
Fases da Metologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.2.1
64
5.2.2
66
5.2.3
Camada de Rede . . . . . . . . . . . . . . . . . . . . . . . . . .
66
5.2.4
Transporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
5.2.5
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
5.2.6
68
5.3
Prottipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
5.4
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
75
xviii
Referncias Bibliogrcas
79
xix
Captulo 1
Introduo
Nos ltimos anos o mundo presenciou um grande crescimento no uso da Internet,
no Brasil, a cada dia aumenta o nmero de usurios conectados rede mundial de
computadores 1 . Alm disso, houve tambm uma grande diversicao nas aplicaes
disponveis atravs dessa rede. Todo esse crescimento se traduz em trfego de rede,
mensagens que circulam pelos canais da rede. Esse trfego, alm de seu interesse
indireto para os usurios, que desejam obter informaes da rede, de grande interesse
para duas comunidades ligadas rea de redes de computadores: pesquisadores e
administradores de sistema.
Pesquisadores buscam entender o comportamento dos usurios e o impacto das
diferentes aplicaes sobre a infra-estrutura de rede, a m de propr novas solues
que garantam a contnua evoluo dos servios e a escalabilidade dos recursos da
rede. Atravs da anlise do padro de acesso a pginas web, por exemplo, pesquisadores foram capazes de identicar a ocorrncia frequente de acessos a pginas populares e propuseram solues para reduzir a carga na rede usando mecanismos de
MUL1274233-6174,00.html
Captulo 1. Introduo
1.1.
Motivao
1.1 Motivao
Garantir que o dado anonimizado realmente possui o nvel esperado de anonimizao
um problema de difcil soluo, pois existem diversas questes sobre a anonimizao
Captulo 1. Introduo
que despertam opinies conitantes, tanto na rea jurdica, quanto na rea tcnica. Por
exemplo, a divulgao do tipo e verso do sistema operacional de uma determinada
mquina considerada um risco por alguns administradores, enquanto no o por
outros. Do ponto de vista jurdico, em certos casos a divulgao das pginas acessadas
a partir de determinada mquina no causa nenhum constrangimento, enquanto em
outros fere gravemente a privacidade.
Considere-se por exemplo, um administrador que abordado por um pesquisador
que deseja uma amostra de trfego da rede a m de avaliar uma hiptese de pesquisa.
Ou ainda, imaginem um diretor de uma universidade que procura o administrador da
rede para discutir sobre a possibilidade da universidade rmar um convnio com um
grupo de universidades, para passar a disponibilizar os dados de conexo de rede da
universidade para toda a essa comunidade cientca e, em troca, receber todos os dados
dessa comunidade. Nesse caso, para garantir a condencialidade e segurana da rede,
o administrador dever no s usar uma determinada ferramenta de anonimizao de
dados, mas dever tambm usar uma poltica de anonimizao pr-denida para que os
dados tivessem o mesmo padro e nvel de qualidade dos dados disponibilizados pelas
outras instituies.
O administrador pode at ter interesse no tipo de resultado da pesquisa, ou na
possibilidade de ter acesso aos dados de outras universidades conveniadas para as pesquisas que elas desenvolvem, mas no deveria fornecer os dados se no tivesse garantias
de que a privacidade dos seus usurios no seria violada em relao ao que exige a lei.
Para esse m, importante que o administrador saiba quais so as informaes sensveis do ponto de vista da privacidade/segurana e as exigncias e restries legais
envolvidas, bem como entenda o que oferecem as diversas ferramentas e tcnicas de
anonimizao existentes.
Diante de situaes similares a essa, torna-se necessria uma metodologia que
valide determinada anonimizao segundo um certo critrio, por exemplo, garantir que
no haja alguma forma de inferir que os endereos anonimizados das mquinas sejam
mapeados para determinados endereos IP reais. Ou ainda, conrmar que determinado dado anonimizado manteve as mesmas caractersticas (por exemplo, distribuio
estatstica) que constam nos dados originais. Ou tambm, se possvel determinar o
sistema operacional de um servidor especco a partir dos dados anonimizados.
1.2.
Objetivos
1.2 Objetivos
Com base no exposto at aqui, o objetivo principal desta dissertao oferecer elementos que auxiliem os administradores de sistemas em rede a decidir sobre a liberao de
informaes sobre trfego de rede considerando aspectos de privacidade e anonimato
de seus usurios. De forma mais detalhada, este trabalho tem os seguintes objetivos
especcos:
identicar as principais ferramentas e tcnicas de anonimizao de dados de conexo de rede, confrontando-as com os vrios tipos de ataques a estas tcnicas.
propor uma metodologia que avalie o grau de anonimato de uma tcnica de
anonimizao que precise ser avaliada por um administrador de rede.
1.3 Contribuio
As principais contribuies deste trabalho endeream diretamente os objetivos especcos mencionados.
O captulo 4 apresenta uma anlise detalhada dos principais protocolos da arquitetura da Internet (a arquitetura TCP/IP), discutindo a informao normalmente
disponvel em cada campo desses protocolos e sua implicao para a obteno de
dados que possam afetar o anonimato/privacidade dos usurios e a segurana da
rede, bem como uma descrio das principais tcnicas e ferramentas de anonimizao disponveis, suas qualidades e limitaes.
Captulo 1. Introduo
Captulo 2
Conceitos e Trabalhos Relacionados
A m de compreendermos melhor os diversos aspectos relacionados anonimizao
de arquivos de trfego de rede e desenvolvermos as contribuies deste trabalho
importante discutirmos os conceitos gerais de privacidade, anonimizao, aspectos de
segurana de rede, as caractersticas da arquitetura TCP/IP, utilizada na Internet atual
e que determina qual informao acompanha cada pacote de dados na rede, algumas
das principais ferramentas de anonimizao de trfego existentes e outros trabalhos
relacionados que meream destaque. Para esse m, as sees seguintes discutem cada
um desses tpicos em mais detalhes.
2.1 Privacidade
A privacidade um termo subjetivo e por isso de difcil denio, pois o seu conceito e
amplitude variam de pessoa para pessoa; por exemplo, ter seu nome impresso em uma
lista telefnica pode representar uma invaso de privacidade para um cantor famoso,
que no gostaria de ter seu nome e telefone divulgados a todos. Por outro lado, um
prestador de servios autnomo provavelmente ir considerar essa divulgao benca
para os seus negcios. Por causa desses diferentes sentimentos quanto privacidade,
os autores divergem entre conceitos amplos e restritos.
Warren & Brandeis [1890] diz que a privacidade um direito de estar s, conceituando o tpico de forma simples e restrita. J a dimenso desse conceito ampliado
por Jos Afonso da Silva [Silva, 1997], ao dizer que a nossa Constituio assegura direito indenizao por dano material ou moral decorrente da violao da intimidade,
da vida privada, da honra e da imagem das pessoas, em suma, do direito privacidade.
Nos pases democrticos o direito privacidade considerado um direito fundamental
e protegido por lei.
7
Com a evoluo das tecnologia esse direito passa a car mais fragilizado, pois
a cada dia cresce o nmero de cmeras de segurana, de empresas com cadastros
informatizados de clientes, etc. A partir disso, o conceito de privacidade comea a
englobar tambm os dados, surgindo em seguida as legislaes para proteo desses
dados.
Para melhor entender a legislao sobre privacidade dos dados interessante fazer
uma classicao desses dados em dados cadastrais, dados necessrios para estabelecer
uma conexo e dados de contedo de trfego. Apesar de cada um desses tipos ter
utilidade dspares todos, a priori, contm informaes privadas. Dados casdastrais so
os dados encontrados nos vrios bancos de dados existem nas empresas. Os dados
necessrios para estabelecer uma conexo so as informaes usadas para controlar a
conexo de um cliente a uma pgina web de um banco, por exemplo. Por ltimo, os
dados de contudo de trfego contm a informao de interesse do usurio durante cada
interao do mesmo com os sistemas em rede.
2.2 Anonimizao
No dicionrio Aurlio [Ferreira, 2008] a denio de anonimato sem o nome ou
assinatura do autor; sem nome ou nomeada; obscuro. Portanto, podemos dizer que
no contexto da informatizao dos dados a informao annima aquela que no seja
possvel identicar a quem ela se refere.
A nossa Constituio, no inciso IV do artigo 5o , diz que livre a manifestao
do pensamento, sendo vedado o anonimato [Congresso Nacional, 1988], entendendo
ento que vedada a no identicao do autor. Apesar de a privacidade ser protegida
em nosso texto constitucional, o anonimato no o [Pinheiro, 2008], permitindo que
os dados de cadastros e de conexes possam ser levantados atravs dos meios legais.
Diante disso, a anonimizao de dados de trfego de rede o processo de retirar
as informaes que possam levar identicao dos usurios da conexo. Mais abrangentemente, essa anonimizao engloba tambm o contedo da informao trocada e
tambm as informaes que interferem na segurana da rede de origem e destino dos
dados.
2.3.
permisso legal para coleta, a legislao dever especicar se o dado coletado pode ser
compartilhado e a forma para isso ocorrer.
No caso das pesquisas, caso haja um consentimento legal para utilizao desses
dados, isso deve ocorrer somente com o uso de anonimizao, ou seja, a tendncia legal
admitir o uso apenas com informaes que no levem identicao do usurio e
seus dados privados.
Levando em considerao que os dados compartilhados para a pesquisa sejam
anonimizados, surge a necessidade de garantir que esses dados de rede divulgados no
sero passveis de quebra do anonimato. Alm disso, preciso considerar os possveis
ataques que afetam no s o anonimato, mas tambm a segurana da rede/sistema,
pois a falta de segurana de uma rede pode implicar na violao da privacidade dos
seus usurios.
Um ataque comum com relao segurana de uma rede o que tenta identicar
o sistema operacional que gerou um certo tipo de dado; para isso foram desenvolvidas
as ferramentas baseadas na tcnica de passive OS Fingerprint [Nmap, 2009; Spangler,
2003]. A principal atuao dessas ferramentas vericar em determinados campos dos
cabealhos da pilha TCP/IP, o tipo de informao que eles contm. Isso se justica
porque nem sempre os desenvolvedores dos sistemas operacionais seguem as denies
e padronizao completamente. Ou seja, o padro indica que determinado campo deve
conter um valor padro, mas muitos sistemas colocam valores diferentes. Dessa forma,
as ferramentas de identicao do sistema operacional comparam o valor do campo com
o valor padro de cada sistema operacional. Caso os valores sejam iguais, deduz-se qual
o sistema operacional que originou aquele pacote. Existem diversos campos em vrios
nveis da arquitetura TCP/IP que podem ser utilizados por esse tipo de ferramenta,
como veremos com maiores detalhes esses campos na seo 4.1.
Outro tipo de ataque, analisado por Kohno et al. [2005], a tcnica de identicar determinada mquina atravs de um padro de tempo de envio de pacotes, onde
segundo os autores cada equipamento possui um padro de intervalo entre o envio dos
pacotes, esse padro se torna uma assinatura ou impresso digital das mquinas.
Os ataques anteriores levam em considerao arquivos de logs anonimizados disponibilizados pelas empresas. Um outro tipo de ataque o chamado ataque de injeo
de logs [Gattani & Daniels, 2008; King et al., 2009; Ribeiro et al., 2008], onde o adversrio sabe que determinada empresa disponibiliza periodicamente, para a comunidade,
seus arquivos de logs anonimizados. Ento, o adversrio tenta inserir, nos arquivos que
futuramente sero disponibilizados, informaes que o ajude a identicar que determidados dados, mesmo aps a sua anonimizao, foram gerados por ele.
Essa insero de dados pode ser feita atravs de uma sequncia de requisies
10
ICMP ou atravs da incluso de uma informao em campos no utilizados pela arquitetura TCP/IP, por exemplo, o campo reservado do protocolo TCP. No futuro,
quando os arquivos forem disponibilizados para a comunidade, o adversrio localiza
nesses dados o trfego gerado por ele. Dessa forma, ele saber o contedo do dado
original e o padro de sua anonimizao, facilitando o trabalho de identicar os valores
originais do restante dos dados anonimizados.
Existe ainda um outro tipo de ataque a arquivos de logs descrito por Coull et al.
[2007], que possvel inferir a topologia da rede e at identicar determinados computadores/usurios atravs da anlise de comportamento do trfego, por exemplo, tipo
de trfego especco ou horrio de conexo determinado, segundo os autores a anonimizao no ecaz contra este tipo de ataque.
2.4.
Arquitetura TCP/IP
11
Aplicao
A camada aplicao a camada onde se localizam os programas dos usurios,
os quais implementam diferentes servios. Essa camada recebe as solicitaes
daqueles usurios e as transformam em mensagens para outras aplicaes em ou-
12
Transporte
A camada seguinte denominada transporte. Ela responsvel por receber os
dados da camada de aplicao e garantir que eles sejam entregues mquina destino. Nessa camada os protocolos existentes so o User Datagram Protocol (UDP)
e o Transmission Control Protocol (TCP), que oferecem servios de entrega diferentes: o primeiro oferece um servio baseado em mensagens independentes, sem
garantias de entrega, enquanto o segundo oferece um canal de comunicao de
Rede
2.4.
Arquitetura TCP/IP
13
A camada de rede tem como principal protocolo o Internet Protocol (IP), que
acrescenta aos pacotes da camada de transporte informaes como endereos de
origem e destino e garante que esses pacotes sejam roteados atravs de uma rede
local a outra, at que eles atinjam seu destino. Esse processo, entretanto, feito
no modelo denominado melhor esforo (best eort ), onde nenhuma garantia
feita sobre a entrega nal dos dados (da a importncia do TCP, que deve corrigir
quaisquer falhas ocorridas na comunicao por IP).
Nesse sentido, as principais atribuies dessa camada so prover um padro de
identicao de mquinas na rede que seja vlido para toda a Internet e fornecer
uma forma de garantir o encaminhamento correto dos pacotes entre a mquina de
origem e a mquina destino (roteamento). Esse padro de identicao o que
se denomina endereo IP, ele possui quatro bytes e tem como funo identicar
unicamente uma mquina na Internet; ele tambm tem como funo identicar
a rede em que se encontra determinada mquina.
Para garantir essas funcionalidades encontramos tambm nessa camada, alm do
IP, o protocolo Internet Control Message Protocol (ICMP) e os protocolos
de roteamento, o primeiro tem como funo principal permitir que os elementos da rede se comuniquem para troca de mensagens de erro ou de controle que
porventura sejam necessrias durante a comunicao. J os protocolos de roteamento, so responsveis por permitir que os caminhos entre as diversas origens
e destinos possveis sejam conhecidos ao longo da rede. Exemplos de protocolos
de roteamento so RIP, OSPF e BGP.
Normalmente se inclui nesta camada o protocolo ARP (Address Resolution Pro-
14
2.5.1
Tipos de coleta
Para cada tipo de dado, um tipo de coleta especco pode ser necessrio, ao se focar
em um tipo de aplicao ou servio especco, como que administradores e pesquisadores se valham de registros de atividade (logs ) gerados pelos programas servidores que
implementam determinados servios. Esse o caso, por exemplo, quando se estuda a
carga de um servidor Web atravs do log das requisies atendidas por ele. No extremo
oposto do espectro de coleta de dados encontra-se a coleta de trfego bruto que circula pela rede, onde todo o contedo de qualquer comunicao que atravessa um canal
pode ser monitorado e coletado. A coleta de anlise de logs de aplicaes preferida
quando o objetivo analisar um servio especco. Nesse caso, os registros j so por
natureza mais processados, pois pode-se resumir a informao a ser coletada com base
no entendimento da semntica da aplicao. Entretanto, para faz-lo, normalmente
necessrio realizar a coleta nas extremidades da rede, seja na mquina do usurio ou
no servidor da aplicao, j que so os nicos pontos que possuem conhecimento suciente para interpretar as requisies do usurio e as respostas do servidor. Esse tipo
de anlise permite se obter um conhecimento aprofundado sobre um certo servio, mas
no permite uma viso abrangente sobre a rede como um todo ou sobre a interao
entre diferentes servios.
Do ponto de vista de privacidade e anonimato o fato da informao ser derivada
com base na semntica de cada servio torna o problema de se vericar o anonimato
em qualquer log desse tipo um problema diferente para cada tipo se servio ou formato
de log. As questes de anonimato que surgem em um servio de correio so de natureza
diferente daquelas de um servidor Web, por exemplo. Dessa forma, trabalhos nesse nvel
devem focar em servios especcos.
2.5.
15
J a coleta de trfego bruto de rede permite que se obtenha uma viso global
de toda comunicao que utiliza um certo elemento da rede (um canal, roteador ou
chave/switch ). Esse tipo de coleta exige que o interessado tenha acesso direto ao
elemento da rede onde se pretende observar o trfego, o que normalmente implica na
participao do administrador da rede em questo. O problema desse tipo de coleta
o grande volume de dados que pode ser gerado, pois em ltima instncia pode-se optar
por coletar cada byte trafegado. Esse volume tambm implica em um maior trabalho
na anlise dos dados coletados. Por ser uma coleta bruta, em princpio possvel
derivar quase toda informao sobre cada aplicao, pelo menos at o ponto em que
essa informao tenha relao com os bytes trafegados. Isso se deve ao fato de que
todos os dados de cada aplicao podem, em princpio, ser includos na coleta. Alm
disso, os cabealhos dos diversos protocolos trazem diversas informaes que podem
servir para se identicar a mquina de origem/destino da comunicao e at mesmo o
usurio envolvido.
Uma soluo intermediria em relao ao tipo de dado coletado, que utilizada
para anlises onde o objetivo no vai alm do entendimento dos padres de trfego
(volumes, origens e destinos), sem preocupao com a semntica dos servios, a
coleta de dados sobre uxos (ows ). Esse tipo de informao comumente disponvel
em roteadores atravs do protocolo NetFlow [Netow, 2009] e informa apenas o volume
de dados trafegados entre cada par origem/destino observado atravs de um canal
ou roteador por unidade de tempo. Esse tipo de dado possui basicamente apenas o
endereo IP de origem e destino como informao que pode afetar a privacidade do
usurio e/ou a segurana da rede. Dessa forma, questes de anonimato nesse caso se
limitam a esses endereos; dessa forma, anonimizao do trfego netflow apenas um
sub-conjunto das questes associadas ao trfego bruto.
Este trabalho tem como foco o estudo do problema de anonimizao de registros
de trfego bruto, por ser um problema abrangente e independente de aplicaes especcas. Alm disso, muito do que se discute aqui sobre anonimizao de endereos de
rede que se aplica diretamente ao problema de anonimizao de coletas de uxos, como
explicado anteriormente.
Trfego bruto de rede compreende todo o contedo de cada pacote que trafega
pela rede. Esse tipo de dado pode ser obtido nos elementos de conexo e roteamento,
como roteadores ou switches. Dele podem ser obtidas informaes sobre origem e
destino dos dados, tipo de servio que est sendo usado, horrio da conexo e at
mesmo o contedo da comunicao, como por exemplo, identicao de usurio, senha
e nmero de carto de crdito em uma interao com um servidor de comrcio eletrnico
e tambm todo o contedo de uma mensagem de correio eletrnico.
16
2.5.2
O processo de coleta
2.5.2.1
O primeiro passo para se realizar a coleta de dados brutos encontrar uma forma de
se ter acesso ao contedo de todos os pacotes que passam por um canal de interesse.
Se esse canal de interesse apenas um canal que leva a uma mquina especca, como
um servidor, basta se ter acesso quela mquina para se realizar a coleta. Por outro
lado, quando se deseja coletar/analisar todo o trfego de entrada e sada de uma rede,
necessrio ter acesso ao canal que conecta essa rede ao restante da Internet. Nesse caso,
comum que haja apenas roteadores ou chaves Ethernet (switches ) nas extremidades
do canal, onde normalmente no possvel se realizar diretamente uma coleta (j que
normalmente precisa-se de um equipamento especialmente congurado para esse m).
Nesse caso, h normalmente duas formas de se resolver esse problema, dependendo
dos recursos de hardware disponveis: interceptao ou espelhamento do trfego. A
gura 2.3 ilustra as duas opes.
No caso da interceptao, um computador com duas interfaces de rede deve ser
colocado no meio do uxo de dados, usando-se cada uma das suas interfaces para se
conectar a um dos dois extremos do canal original que se deseja monitorar. O sistema
operacional daquele computador deve ser congurado para copiar todos os pacotes que
cheguem em uma interface para a outra, garantindo que o uxo de pacotes no canal seja
mantido inalterado. Paralelamente, o sistema deve copiar cada pacote recebido para
um arquivo de armazenamento local, que constituir o arquivo de registro de trfego.
J no caso do espelhamento, essencial que se tenha um elemento de rede (roteador ou chave Ethernet) com essa funcionalidade. Nesse caso, o elemento de rede pode
ser programado para realizar uma cpia de cada pacote recebido ou enviado atravs
de uma certa interface de rede (a interface de terminao do canal de interesse). Essa
2.5.
17
a)
b)
cpia ento transmitida por uma outra interface do mesmo elemento de rede, qual
pode-se ento conectar o computador de coleta. Esse computador precisa apenas armazenar cada pacote que recebe atravs daquela interface, sem nenhum outro tratamento
extra.
A interceptao exige normalmente um computador com mais recursos (o equipameno precisa ter duas interfaces de rede, ser congurado para copiar o trfego recebido
em cada interface para outra, agindo como uma bridge, e com desempenho suciente
para fazer a cpia e o armazenamento do trfego sem perdas). Entretanto pode ser
mais facilmente colocada em prtica, pois no impe maiores exigncias sobre a rede
a ser monitorada. Desde que o canal monitorado seja da mesma tecnologia das duas
interfaces de rede do computador de monitorao ela pode ser implantada. J o espelhamento reduz a demanda sobre o computador de coleta, que precisa ser capaz
apenas de copiar os dados recebido para um arquivo, mas depende da existncia de um
elemento de rede no ponto da coleta que possua recursos de espelhamento de trfego.
18
2.5.2.2
Coleta de trfego
Independente da tcnica adotada para se ter acesso ao trfego, o prximo elemento necessrio o programa de coleta propriamente dito. Nesse caso, a ferramenta mais
comum para obter esses dados, dentre outros aplicativos existentes, o programa
tcpdump [Tcpdump & libpcap, 2009] atravs da libpcap que uma biblioteca para
processamento dos logs, estes emprestam seus nomes para os arquivos gerados por eles.
A coleta de trfego no um procedimento automtico dos elementos de rede: ela
deve ser congurada pelo administrador do sistema e a partir da, como mencionado
anteriormente, pode-se obter e armazenar todo o contedo dos dados que trafegam pela
rede nesse tipo de monitorao. Entretanto, geralmente o que coletado e analisado
so apenas os primeiros bytes de cada pacote trafegado, j que neles encontram-se
os cabealhos dos protocolos, de onde se pode obter a maior parte da informao de
interesse para anlise.
O tcpdump uma ferramenta que executada atravs da linha de comando e
consegue ler tanto os dados diretamente da interface de rede, quanto de um arquivo
de coleta gerado anteriormente. Ele pode gerar um arquivo de sada no formato texto
ou no formato do prprio programa. Ele usa a biblioteca pcap (packet capture ), que
proporciona um ambiente de alto nvel para captura e processamento de pacotes de
rede.
O tcpdump tem como padro, na maioria dos sistemas operacionais, ler apenas
os primeiros 68 bytes dos pacotes que trafegam na rede. Esses 68 bytes normalmente
so sucientes para se obter toda a estrutura de cabealhos ICMP, IP, TCP e UDP.
Entretanto, como o tamanho dos pacotes desses protocolos pode variar, possvel
que dentro dos 68 bytes salvo exista uma quantidade de bytes do chamado payload
(que so os dados da aplicao propriamente dita). Alm disso, o programa pode ser
congurado para reter todo o pacote, aumentando consideravelmente a quantidade de
dados armazenados e consequentemente afetando o desempenho do sistema de leitura
e gravao dos pacotes. O armazenamento de bytes de payload sempre uma questo
delicada, devido variedade de aplicaes praticamente impossvel se criar uma forma
de anonimizar esses dados.
Uma caracterstica muito importante do tcpdump que ele permite especicar
ltros para ele coletar apenas determinado tipo de informao. Por exemplo, ele pode
ser congurado para coletar apenas o trfego de determinado endereo IP de origem,
ou todos os pacotes que forem do protocolo TCP, ou at mesmo excluir os pacotes que
sejam endereados para a porta 80 (geralmente trfego web).
2.5.
19
jelson/software/tcpow/
20
2.6.
Ferramentas de anonimizao
21
2.5.3 Discusso
Uma vez que se consiga um computador com acesso ao trfego utilizando uma das tcnicas anteriores, o administrador/pesquisador precisa explicitamente executar o programa tcpdump para coletar os dados, ou seja, at que isso ocorra no h qualquer
problema de privacidade envolvido. As dvidas surgem a partir do momento em que
uma cpia desses dados comea a ser armazenada. Por exemplo, apenas coletar estes
dados sem o aviso prvio do usurio da rede j caracteriza uma invaso de privacidade?
Anal, os pacotes armazenados por padro do tcpdump, como visto, podem conter informaes pessoais. Por outro lado, o administrador no manipulou ou compartilhou
esses dados. E se os dados coletados contiverem apenas com os cabealhos do pacote,
isso conguraria tambm uma quebra de privacidade? O endereo IP uma informao
pessoal?
Avisar previamente o usurio sobre coleta suciente para o uso de seus dados
no congurar invaso de privacidade? O pesquisador poder compartilhar esses dados
ou guard-los por tempo indeterminado? Poder fazer qualquer tipo de anlise nesses
dados? Essas so questes que precisam ser consideradas.
Como vimos, o tcpdump permite ainda ltrar as informaes a serem coletadas,
ou seja, possvel fazer uma monitorao direcionada para identicar quais computadores acessam determinados sites ou qual o perl de acesso de determinados usurios.
Este tipo de monitorao legal? Existe algum tipo de procedimento especial que
torne esta coleta legal ou ilegal? Ao ltrar apenas um tipo de trfego aumenta-se a
garantia de privacidade do que coletado? Podendo ltrar um tipo de trfego, a coleta
pode ser direcionada e tornar a privacidade mais ameaada?
A anonimizao de dados torna a coleta legal? Pois a princpio nem o payload e
nem as informaes de indicao da mquina foram mantidas. Ou apenas legal a
coleta executada com permisso judicial?
Achar respostas concretas para essas questes um tarefa complexa, esperamos
ao nal desse trabalho discutir as principais diculdades que envolvem esse assunto.
22
2.7.
23
Captulo 3
Aspectos Legais
Como vimos anteriormente, o crescimento no uso da Internet para atividades do diaa-dia ocorrem em um ritmo cada vez maior, aumentando a necessidade de melhorias
da infraestrutura da Internet e de seus protocolos.
Consequentemente, houve um grande aumento na quantidade de informao privada trafegada na Internet alm, claro, de um maior nmero de pessoas cadastradas
nas bases de dados das empresas. Isso gerou em muitos pases uma preocupao em
regular a proteo, manuteno e circulao dessas informaes na Internet, pois as
empresas trocam, entre si, informaes de suas bases, assim como os pesquisadores
utilizam arquivos de logs de rede para sua pesquisa.
Outra consequncia desse crescimento da Internet foi o aumento signicativo do
nmero de crimes e fraudes pela rede. Esses fatos levaram a uma preocupao crescente da rea jurdica em tornar a Internet um ambiente mais controlado. Para isso,
vrios pases comearam a regulamentar polticas de combate aos chamados cybercrimes, dentre elas a tipicao de novos crimes relacionados ao ambiente computacional
e regras para maior controle do acesso a Internet, principalmente com relao ao armazenamento de arquivos de logs de conexo para facilitar a identicao de criminosos.
Diante dessa regulamentao crescente entre os pases e, consequentemente, uma
maior preocupao com o controle dos dados que circulam na Internet, aumenta a
necessidade de um rigoroso processo de coleta, armazenamento e utilizao desses dados
por parte de empresas, impactando diretamente a utilizao e compartilhamento de
dados de conexo de rede pelos pesquisadores da rea.
Atualmente, a maioria dos pesquisadores coletam, manipulam e, muitas vezes,
compartilham os arquivos de logs de conexo sem se preocupar com as normas de
condencialidade/privacidade que protegem esse tipo de dado [Ohm et al., 2007]. Entretanto, mesmo quando se preocupam com o contedo desses arquivos eles no sabem
25
26
como devem proceder para coletar e manipular esses arquivos de forma a garantir a segurana da rede, a privacidade dos usurios, alm de se preservarem contra um processo
de indenizao ou at mesmo criminal.
Por outro lado, no meio dessa corrida para regulamentar o uso da Internet, organismos de proteo das liberdades individuais tentam combater excessos que tais
regulamentaes possam causar, por exemplo, na privacidade dos indivduos, que
um direito bsico previsto no artigo 12 da Declarao Universal dos Direitos Humanos [ONU, 1950].
Para tentar elucidar as questes jurdicas que envolvem a coleta e anlise de dados
de conexo de rede, neste captulo discutiremos o que alguns pases esto fazendo
para tentar controlar a circulao de dados e reduzir a criminalidade na Internet.
Inicialmente, a legislao da Unio Europia ser discutida, por ser um grupo dos
principais pases do mundo e por j estar muito avanada nesse assunto. Em seguida,
discutiremos as leis sobre o controle dos dados pessoais nos Estados Unidos e alguns
pases da Amrica do Sul.
Por m, veremos o que existe no Brasil em termos de legislao em vigor e ainda
apresentaremos as caractersticas relevantes dos principais projetos de lei que tramitam
no Senado Federal. Finalmente, tentaremos delinear qual a melhor forma de lidar com
a coleta de dados, para garantir o alto grau de conformidade com as leis.
3.1.
Unio Europia
27
no autorizadas.
Ela tambm especica a forma como esses dados podem ser obtidos e como devem ser mantidos, dando prerrogativa ao titular dos dados para acess-los, retic-los
ou elimin-los. Ela ainda permite que as empresas utilizem esses dados para ns de
estatstica ou de pesquisa cientca, desde que no causem risco privacidade dos
titulares.
Observamos que no decorrer dos anos regular a proteo privacidade sem prejudicar a livre circulao dos dados entre os pases membros foi sempre uma preocupao
no Parlamento Europeu, tanto que foram lanadas diversas diretivas e regulamentos
(que so uma espcie de tratado entre os pases membros que se comprometem a adequar sua legislao interna s diretrizes desses documentos) denindo regras sobre o
assunto.
Em 1995 foi adotada a diretiva 46 [Parlamento Europeu, 1995] que busca regulamentar, novamente, a livre circulao dos dados pessoais entre os pases membros,
resguardando sobretudo os direitos fundamentais, dentre eles o direito vida privada.
Nessa diretiva so criadas outras duas excees a essa regra de privacidade: a primeira
o consentimento expresso do titular para o uso dos dados; a segunda quando os
dados so anonimizados, antes de serem manipulados, garantindo que as pessoas no
sejam identicadas.
Na diretiva 46/95 foi mantida a denio de dado pessoal, especicando algumas
das formas de identicao indireta do titular dos dados, por exemplo, atravs de
um nmero identicador, ou caractersticas fsicas culturais, etc. Ela ainda dene
o que o tratamento automatizado de dados pessoais, exemplicando os tipos de
manipulao que esses dados podem sofrer, determinando sigilo e segurana adequados.
Determina que os estados-membros devem garantir recursos judicais para quem se sentir
prejudicado e sanes para os responsveis.
Alm disso, ela regulariza a transferncia desses dados para pases nocomunitrios e, preocupada com o dinamismo na evoluo da informtica, cria no
seu artigo 29 o grupo de proteo das pessoas no que diz respeito ao tratamento de
dados pessoais, que formado por representantes de cada pas membro, especicando
entre suas atribuies, a de dar parecer sobre nvel de proteo dos pases membros e
no-membros e dar recomendaes sobre proteo das pessoas relativas ao tratamento
dos dados pessoais na Comunidade Europeia.
Em 1997 foi adotada a diretiva 66 [Parlamento Europeu, 1997] que regulamentava
o setor de telecomunicaes e foi revogada em 2002 pela diretiva 58 de 2002, que aumentou a sua abrangncia para o setor de comunicaes eletrnicas. Mesmo revogada,
veremos alguns detalhes de alguns artigos da diretiva 66 de 1997, para contextualizar-
28
3.1.
Unio Europia
29
30
3.2 Amrica
O Canad possui dois decretos sobre a privacidade dos dados: o primeiro de 1982 e
regulamenta a coleta, o uso e a divulgao de dados pelos rgo governamentais e o
segundo de 2001, que estabelece princpios que as organizaes em geral devem seguir
na coleta, armazenamento e uso dos dados pessoais.
Nos Estados Unidos vigora a common law, que o sistema de formao de leis
atravs dos costumes e de decises judiciais. Devido a esse sistema, os EUA possuem
uma diversidade grande de decises judiciais sobre a privacidade de dados, leis estaduais
e leis federais. Devido a essa descentralizao, o congresso americano comeou a criar
diversos acts, que so as leis federais, regulamentando a privacidade de determinados
tipos de dados, por exemplo, o Health Information and Portability Accountability Act
(HIPAA), que trata sobre a manuteno e tratamento dos dados relativos sade, o
Children's Online Privacy Protection Act (COPPA), que probe aos sites a coleta de
dados de crianas sem a autorizao dos pais e o Driver's Privacy Protection Act, que
probe o estado a revelar dados pessoais dos cidados, como o endereo, nmero do
seguro social, etc.
Em 1986 entrou em vigor o Electronic Communications Privacy Act (ECPA), que
regula a interceptao da comunicao de dados, proibindo que se intercepte, acesse e
divulge informaes de uma comunicao eletrnica, prevendo algumas excees a essa
regra; por exemplo, a invaso no autorizada de sistemas por hackers considerada
ilegal, mesmo que esta invaso no cause dano. Aps os ataques terroristas, em 2001,
entrou em vigor USA Patriot Act que entre outras coisas, permite a interceptao de
comunicao de voz em computadores suspeitos.
Na Amrica do Sul alguns pases j possuem lei especca de proteo de dados.
O Chile, por exemplo, aprovou um lei de proteo de dados em 1999, dando direito s
pessoas de acesso e correo de suas informaes. A Argentina, em 2000, sancionou a
3.3.
Brasil
31
Lei 25.326 sobre a proteo dos dados pessoais, seguindo a tendncia das leis internacionais, que prev a proteo dos dados pessoais, estabelecendo regras de informao
sobre o tratamento dos dados.
Alm disso, ela criou um rgo de regulamentao e aplicao da lei proteo aos
dados pessoias. Dessa forma, a Argentina em 2003 obteve um parecer de adequao
de proteo da Unio Europia, se tornando o primeiro pas da Amrica do Sul com
autorizao de transferncia de dados de/para a Europa.
3.3 Brasil
No Brasil, apesar de no estarmos to avanado com relao s normas de troca,
preservao e privacidade dos dados dos meios de comunicao eletrnicos, no se pode
armar que no exista nenhuma regra sobre o assunto. Nessa seo, discutiremos as leis
que falam de privacidade e interceptao de dados e que atualmente vigoram no pas.
Alm disso, veremos o principal projeto de lei que est em tramitao no Congresso
Nacional, que de alguma forma ajudar no compreenso de como esse assunto deve
evoluir.
II- quem indevidamente divulga, transmite a outrem ou utiliza abusivamente comunicao telegrca ou radioeltrica dirigida a terceiro, ou conversao telefnica entre pessoas.
Sendo assim, vemos que o nosso Cdigo Penal tornava crime apenas quem divulga
ou transmite a outrem conversao telefnica entre outras pessoas. Isso signica que
simples ato de interceptar e/ou gravar uma comunicao telefnica no era considerado
crime, pois o crime era consumado somente no momento da divulgao ou transmisso
da informao a outrem [Jesus, 1997] . Esse inciso se resume tambm a apenas comunicaes telefnica e radioeltrica, no incluindo nosso assunto que trfego de redes,
32
3.3.1.2
Nossa Constituio de 1988 [Congresso Nacional, 1988], prev em seu artigo 5o , inciso
X, a inviolabilidade da intimidade e da vida privada das pessoas e, no inciso XII do
mesmo artigo, prev a inviolabidade da correspondncia e das comunicaes, como
mostrado a seguir:
Art. 5o : Todos so iguais perante a lei, sem distino de qualquer
natureza, garantindo-se aos brasileiros e aos estrangeiros residentes no Pas
a inviolabilidade do direito vida, liberdade, igualdade, segurana e
propriedade, nos termos seguintes:
X - so inviolveis a intimidade, a vida privada, a honra e a imagem das
pessoas, assegurado o direito a indenizao pelo dano material ou moral
decorrente de sua violao;
XII - inviolvel o sigilo da correspondncia e das comunicaes telegrcas, de dados e das comunicaes telefnicas, salvo, no ltimo caso,
por ordem judicial, nas hipteses e na forma que a lei estabelecer para ns
de investigao criminal ou instruo processual penal.
A princpio, lendo rapidamente o inciso XII, parece que os legisladores deixaram
claro o seu interesse em tornar inviolvel o sigilo da correspondncia, das comunicaes
telegrcas e de dados, abrindo exceo s comunicaes telefnicas quando houver
ordem judicial.
O que aparentemente j est denido , na verdade, uma grande polmica entre
os juristas do pas, pois a expresso, salvo, no ltimo caso, no deixa claro a que
se refere [Delmanto et al., 1998], criando pelo menos duas correntes de interpretao
desse inciso. A primeira corrente defende que o inciso possui quatro itens (correspondncia, comunicaes telegrcas, comunicaes de dados e comunicaes telefnicas)
sendo, assim, que a exceo prevista diante de autorizao judicial relativa apenas
s comunicaes telefnicas, tornando o sigilo da correspondncia, da comunicaes
telegrcas e de dados absoluto [Greco Filho, 1996]. Ao defender a exceo somente s
comunicaes telefnicas, Delmanto et al. [1998], citando Themistocles Cavalcanti 1 ,
1 Themistocles
3.3.
Brasil
33
diz que as garantias individuais devem ser interpretadas de forma extensiva, ou seja,
diante de uma regra com texto duvidoso deve-se ampliar a garantia de liberdade e no
restringi-la.
Por outro lado, existem autores que defendem a idia de que esse inciso dividido
em apenas duas partes, sendo a primeira o direito ao sigilo da correspondncia e das
comunicaes telegrcas e a segunda, o direito ao sigilo comunicaes de dados e das
comunicaes telefnicas. Dessa forma, a exceo prevista de quebra do sigilo se destina
tanto s comunicaes de dados, quanto s comunicaes telefnicas [Gomes & Cervini,
1997]. Em seu voto no julgamento do pedido 577 [Mello, 1992] de quebra de sigilo
bancrio, o Ministro do Supremo Tribunal Federal (STF) Marco Aurlio Mello, declara
esse entendimento sobre esse preceito.
Alm de falar da exceo vista acima, o inciso XII determina que a legislao
infra-constitucional a regulamente na sua forma e hipteses, para ns de investigao
criminal ou instruo penal. Nesse ponto no h discusso, ou seja, as duas correntes
concordam que para haver a quebra do sigilo preciso uma ordem judicial e isso somente
para ns de investigao criminal ou instruo processual penal.
34
3.3.
Brasil
35
36
3.3.2
Devido grande repercuso que os crimes de informtica vm tendo, temos no Congresso Nacional diversos projetos que regulamentam questes relativas a informtica.
Dentre eles, destacamos dois projetos que achamos de maior relevncia, o primeiro o
projeto 494/2000 [Senado Federal, 2008] que tem como principal caracterstica seguir
em linhas gerais o contedo das diretivas europeias. J o segundo o projeto que tem
tido muito destaque na mdia devido polmica criada sobre o controle do uso da Internet, mais conhecido como o Projeto do Senador Eduardo Azeredo [Senado Federal,
2009], ele um substitutivo de outros trs projetos que estavam em tramitao no
Senado Federal, como veremos em seguida.
3.3.2.1
Esse projeto de lei foi proposto pela Comisso Parlamentar de Inqurito (CPI) sobre
a pedolia e tem em seu artigo 1o a descrio dos seu objetivo.
Essa lei disciplina a forma, os prazos e os meios de preservo e transferncia de dados informticos mantidos por fornecedores de servio e autoridades pblicas, para ns de investigao de crimes praticados contra
crianas e adolescentes.
Apesar de direcionada para investigao de crimes de pedolia, esse projeto tem
muita similiaridade com as diretivas 58/2002 e 24/2006 da Unio Europia, conforme
mencionado no incio desse captulo. No artigo 2o o projeto dene trs tipos de fornecedores de servio: de telecomunicaes, de acesso e de contedo ou interativo. Neste
mesmo artigo so denidas trs categorias de dados: de conexo, cadastrais do usurio
e relativos ao contedo da comunicao. Na primeira categoria esto os dados necessrios para realizar uma conexo; a segunda engloba apenas os cadastros dos usurios/clientes; nalmente a categoria dos dados trafegados propriamente ditos, onde se
encontra o contedo da comunicao.
No artigo 3o , determinado um prazo de 3 anos para a manuteno dos dados
e de conexes para os fornecedores de servio de telecomunicaes e de acesso e de 6
meses para os fornecedores de contedo ou interativo. Alm disso, ela determina em
seu artigo 7o que em qualquer fase da investigao criminal envolvendo delitos contra
crianas e adolescentes, esses dados devem ser transferidos para a autoridade policial
ou Ministrio Pblico sem ordem judicial prvia e os dados de contedo apenas com
autorizao policial.
3.3.
Brasil
37
Outro artigo que gerar polmica o artigo 8o , pois ele determina que a autoridade
policial poder, sem autorizao judicial, solicitar a preservao imediata dos dados de
contedo, para ns de investigao de crimes envolvendo crianas e adolescentes. A
transferncia desses dados para a autoridade solicitante dever ser feita apenas com
autorizao judicial.
Finalmente, no artigo 14, esse projeto prev que o Poder Executivo estabelecer
padres e formatos para solicitaes e as respostas a pedidos, por dados. Isso ajudar
os administradores a fazer a coleta com mais segurana.
38
Dados de trfego: todos os dados informticos relacionados com sua comunicao efetuada por meio de uma rede de computadores, sistema informatizado ou dispositivo de comunicao, gerados por eles como elemento de
uma cadeia de comunicao, indicando origem da comunicao, o destino,
o trajeto, a data, o tamanho, a durao ou o tipo de servio subjacente.
Para nalizar no seu artigo 22 esse projeto prope o armazenamento dos dados
relativos conexo por trs anos, delimitando em seu inciso I o prazo e o tipo de dado
que deve ser armazenado, mas limitando o seu fornecimento autoridade investigatria
mediante autorizao judicial. E em seu inciso II ele determina que outros dados, que
se presume que so os dados da comunicao, devem ser preservados aps requisio
judicial, respondendo civil e penalmente pela sua condencialidade e inviolabilidade.
3.3.
Brasil
39
podendo utilizar-se do contedo dos pacotes e em relao aos dados de conexo, esses
s podero ser utilizados se forem anonimizados antes do uso.
J o projeto substitutivo do Senador Eduardo Azeredo, apesar de no distinguir
claramente os dados de comunicao dos dados de conexo, enumera os dados que tm
obrigatoriedade de ser mantidos. Outro ponto mal denido o responsvel por fazer a
manuteno desses dados, o termo est muito genrico dentro a gama de entidades que
fazem o provimento de acesso a rede de computadores mundial. Os pontos positivos so
os itens relativos reteno dos dados, este projeto est de acordo com o que foi visto
na nossa legislao em vigor e portanto, parece estar de acordo com o que estabelece
nossa Constituio.
Captulo 4
Aspectos Tcnicos
Como visto nos captulos anteriores, os pacotes de trfego contm vrias informaes
essenciais para a comunicao de rede. Alm das informaes contidas dentro dos
dados transmitidos pela aplicao, diversos campos dos cabealhos da pilha TCP/IP
podem conter informaes que identicam algum usurio e/ou equipamento de rede e
que afetam diretamente a sua privacidade e a segurana da rede.
Neste captulo analisaremos os aspectos tcnicos da anonimizao de dados, comeando com uma anlise de cada um dos campos dos cabealhos dos principais protocolos
da arquitetura TCP/IP, destacando quais campos podem ser usados para a violao
da privacidade e a segurana dos sistemas. Em seguida vamos discutir as tcnicas
de anonimizao existentes, com nfase para a anonimizao de endereos. Por m,
veremos mais detalhadamente algumas das principais ferramentas de anonimizao de
dados existentes.
42
4.1.1
Aplicao
4.1.
4.1.2 Transporte
A camada de transporte na arquitetura TCP/IP, atualmente, tem dois protocolos de
maior relevncia: o Transmission Control Protocol (TCP) e o User Datagram Protocol
(UDP).
4.1.2.1 UDP
O protocolo UDP conhecido por no ser orientado a conexes e no oferecer garantias
de entrega. Com isso, ele possui um nmero reduzido de campos em seu cabealho,
pois no tem funes mais complexas. Os campos que ele possui so porta de origem
e destino do pacote, comprimento do cabealho e soma de vericao.
Os campos porta de origem e porta de destino, so os campos que identicam a terminao da conexo. Geralmente, aplicaes padronizadas possuem uma
porta padro na qual o sistema operacional car aguardando uma conexo, por esse
motivo, portas trazem a identicao da aplicao.
Em seguida, temos o campo Comprimento do cabealho (HLEN); como
o prprio nome diz, ele informa o tamanho do cabealho UDP, j que este pode ter
tamanho varivel. Por ltimo, temos o campo soma de verificao de cabealho
(checksum ), sua funo vericar a integridade do pacote recebido.
44
tcpdump, no vivel saber se o campo est correto ou no. Isso nos leva concluso
que o campo pode ser anonimizado sem uma soluo que atenda as expectativas dos
pesquisadores.
4.1.
4.1.2.2 TCP
O protocolo TCP o protocolo orientado a conexes e como visto na seo 2.4, possui
funcionalidade de ordenao e conrmao de recebimentos dos pacotes. Para implementar essas caractersticas possui diversos campos de controle no seu cabealho,
conforme ilustra a gura 4.2.
que este pode ter tamanho varivel. O campo reservado foi criado para utilizao
futura, mas atualmente ele no utilizado.
Alm de transmitir o dados de uma aplicao, o cabealho TCP pode tambm
ser utilizado para conrmar o recebimento dos dados, solicitar o estabelecimento ou
encerramento da conexo. Para identicar essas informaes em pacotes TCP, foi
denido o campo flags ou bits de cdigo, que possui 6 bits, onde cada um indica uma
funcionalidade do pacote. O primeiro bit, URG, indica a existncia de dados urgentes
no pacote; em seguida, o bit ACK indica que o valor do campo de reconhecimento
vlido; o bit PSH indica que o receptor deve repassar os dados para a camada superior;
o bit RST encerra uma conexo com erro; o bit SYN sincroniza o nmero de sequncia
no estabelecimento de uma conexo e, nalmente, o bit FIN indica o m de uma
conexo.
46
A seguir, temos o campo anncio de janela, que muito importante na funcionalidade de controle de congestionamento do TCP, pois indica o nmero de bytes que o
receptor pode aceitar ser enviado a partir do ltimo byte conrmado [Peterson & Davie,
2003]. Temos ainda o campo soma de verificao que similar ao campo com
mesmo nome visto no protocolo UDP.
Em seguida o campo opes disponibiliza funcionalidades no obrigatrias,
como a negociao do tamanho mximo dos pacotes (MSS), o uso de conrmao
seletiva (SACK), marca de tempo dos segmentos (timestamp ) e aumento do tamanho
da janela de transmisso (WSCALE). E por m o campo preenchimento (padding )
tem a funo de garantir que o cabealho ser mltiplo de 32 bits.
4.1.
4.1.3.1 IPv4
Como ilustrado na gura 4.3, o cabealho IPv4 possui vrios campos de controle para
conseguir enviar um pacote para outra mquina conectada Internet. O primeiro
campo a verso do protocolo e, como o prprio nome indica, identica a verso
do protocolo IP utilizada para criar o pacote. Dependendo do valor desse campo,
o restante do pacote interpretado de acordo com a denio do cabealho daquela
verso do protocolo IP (4 ou 6).
Em seguida, o campo comprimento do cabealho (HLEN) especica o comprimento do cabealho. O tipo de servio um campo de 8 bits que determina
como o pacote deve ser tratado pelos roteadores, por exemplo, com prioridade, alta
conabilidade, etc. Originalmente ele era ignorado, mas mais recentemente algumas
aplicaes de multimdia passaram a usar esse campo e alguns roteadores passaram a
interpret-los para tentar melhorar a qualidade de transmisses desse tipo de servio.
O campo seguinte o comprimento total do pacote, incluindo os dados.
48
4.1.
4.1.3.2 IPv6
Devido limitao de nmeros IP na verso IPv4, foi proposta uma nova verso para
o protocolo IP que o IPv6, onde foram feitas vrias mudanas no cabealho. A
principal o aumento do tamanho do endereo IP, que passa de 32 para 128 bits.
Apesar dessa mudana, ser necessrio o mesmo tipo de anlise da verso anterior, e
os mtodos de anonimizao devero ser os mesmos, considerando apenas o aumento
do tamanho do campo.
Outra modicao foi no campo opes, mas como no endereo IP esse campo
precisar ainda de anonimizao, pois a nova verso prev opes com valores padro,
que podero causar o mesmo problema na identicao do sistema operacional, caso
50
estes alterem o valor padro. Tambm no IPv6, foi criado o campo que provavelmente
necessitar ser anonimizado que o identicador de uxo, pois poder conter dados
que identiquem a origem e o destino do pacote.
Muitos dos demais protocolos da camada de rede e outros de aplicao possuem
verses adaptadas para utilizar IPv6. Do ponto de vista deste trabalho, entretanto,
essas alteraes no trazem novos elementos e nas sees a seguir discutimos apenas a
verso associada ao IPv4. Pode-se considerar que os mesmos problemas e solues se
aplicaro no caso do IPv6.
4.1.3.3
ARP
O protocolo ARP permite que uma mquina identique o endereo fsico de um host de
destino na mesma rede fsica. Para isso a origem envia uma mensagem broadcast ARP
pela rede fsica solicitando o endereo de hardware do equipamento (tambm chamado
de MAC Address ) que possui determinado endereo IP. Todas as mquinas recebem a
mensagem, mas apenas o equipamento com aquele IP responde a mensagem incluindo
o seu endereo de hardware.
Para realizar essa tarefa o protocolo ARP possui um formato de mensagem com
vrios campos, para que ele possa ser til para diferentes tecnologias de rede onde os
campos de endereos podem ter tamanhos variados. O campo tipo de hardware
identica o tipo de hardware para o qual o transmissor espera uma resposta, por exemplo, Ethernet. Da mesma forma, o campo tipo de protocolo identica o protocolo do
nvel de rede cujo endereo est sendo usado. Assim, a funcionalidade dos campos
HLEN e PLEN permitir a adaptao a vrias tecnologias de rede, pois eles especi-
4.1.
redes sem o e outras, so formados por seis bytes. Os trs primeiros identicam um
lote de endereos que pode ser comprado pelos fabricantes do hardware. Sendo assim,
com os trs primeiros possvel identicar o fabricante do equipamento, o que pode
representar uma ameaa privacidade e segurana caso o hardware utilizado seja muito
especco. A segunda parte do endereo um nmero nico dentro da numerao do
lote que identica cada unidade fabricada.
Esse campo costuma ser importante para quaisquer anlises, pois pode indenticar cada equipamento, ou identicar erros em produtos de um determinado fabricante.
Devido a essas caracterticas, as tcnicas anonimizao devem tentar preservar ao mximo essas informaes importantes, entretanto, sem revelar o fabricante do equipamento ou o nmero original de cada dispositivo.
J os campos sender IP e target IP so os endereos IP da origem e do destino
da mensagem ARP. Eles identicam o endereo IP de origem e destino do pacote ARP.
Como discutido anteriormente, temos um interesse especial por esse campo, pois o
mesmo endereo do protocolo IP, ou seja, muito importante que esses campos, ao
serem anonimizados, no deixem vestgios dos seus valores originais. Se possvel, a
anonimizao desses campos deve seguir o mesmo tipo de anonimizao dos endereos
dos pacotes do protocolo IP.
4.1.3.4 ICMP
Como os pacotes IP so trocados com base na poltica de melhor esforo, sem conrmao de entrega ou conexo, quando h algum erro o protocolo IP no possui nenhum
recurso para comunicar origem do pacote que algo est errado. Para isso existe o
protocolo Internet Control Message Protocol (ICMP), que tem como funo informar
erros entre os elementos de conexo da rede e permitir a troca de mensagem de controle.
O pacote ICMP ca dentro da rea de dados do IP e o formato de seu cabealho
varia de acordo com o tipo de mensagem que ele est enviando. As mensagens ICMP
devem ser tratadas com cuidado, pois alm de possurem os campos do IP, possuem
no seu cabealho campos como a soma de vericao que calculada com o prprio
pacote. Alm disso, as mensagens de erro causadas por um certo pacote IP levam em
seu payload os 64 primeiros bits daquele pacote. Em outros tipos de mensagem, pode
ser includo o endereo do roteador que a origem deve enviar o pacote IP.
Devido s informaes que esto no pacote ICMP e variadade de tipos de ferramentas de anonimizao deve-se ter muito cuidado ao tratar o ICMP. Descartar
simplesmente o pacote pode no ser uma opo, pois eles tambm podem ser importantes para a anlise, pois ajudam a identicar problemas na rede. Por outro lado,
52
4.1.3.5
Protocolos de Roteamento
Em uma anlise usual de uma rede comum assumir que os pacotes so sempre roteados
adequadamente para seu destino, presumindo que os roteadores conhecem de antemo
todos os destinos dos pacotes que trafegam pela rede. Isso na prtica no ocorre, e a
funo de roteamento de pacotes pelo melhor caminho difcil de ser implementada,
exigindo o uso de protocolos de roteamento para se identicar caminhos viveis.
Para isso, foram criados diversos protocolos de roteamento, dentre eles destacamse o BGP, OSPF e RIP. Cada um desses protocolos possui tcnicas diferentes para tentar
obter a informao do melhor caminho por onde o pacote deve ser repassado, montando
a chamada tabela de roteamento. Para isso, eles possuem mensagens que podem ser
usadas para obter informaes de rotas que podem ser utilizadas pelos adversrios. Em
uma , por exemplo, para obter detalhes de uma topologia de rede de uma organizao,
o que interfere na segurana da mesma.
Mensagens de roteamento tambm podem possuir informao de endereos de
4.1.4
Essa camada, como denida originalmente na arquitetura TCP/IP, costuma ser dividida em camadas de enlace e camada fsica, tomando emprestadas as denies dessas
camadas do modelo OSI/ISO 1 . Entretanto, para os ns deste trabalho adotamos a
denio original da arquitetura TCP/IP.
Na camada de rede local encontramos diversas tecnologias, como token-ring,
FDDI, redes sem o, enlaces PPP e Ethernet. Apesar dessa grande variedade, Ethernet
a tecnologia de maior penetrao no momento atual e a que tem maiores implicaes em termos de questes de segurana e privacidade, por esse motivo ela ser o foco
desta discusso.
1 http://www.iso.org/iso/home.htm
4.2.
53
54
destinos. Diante disso, pode ser necessrio, ao invs de excluir as informaes, substitulas por outras que mantenham parte da informao, por exemplo, as caractersticas
que separam os endereos IP em diferentes mquinas, apesar de no permitir sua
identicao. Nesse caso, necessrio garantir que a partir desses identicadores no
seja possvel deduzir o valor original dos dados.
Para tentar anonimizar os dados garantindo que as informaes sensveis segurana e ao anonimato sejam eliminadas, foram criadas vrias tcnicas de anonimizao.
Veremos a seguir, que h um compromisso envolvendo essas tcnicas de anonimizao,
pois quanto melhor a anonimizao (no sentido do alto grau de diculdade para
reverter a anonimizao) pior a qualidade desses dados para a pesquisa.
4.2.1
O nome black marker foi dado por Slagell et al. [2006]. Essa tcnica implementada
pela maioria das ferramentas de anonimizao, e tem como principal caracterstica
substituir as informaes relevantes por um valor constante, equivalendo excluso
das informaes.
Essa tcnica tem uma anonimizao muito forte, por ser praticamente impossvel
para um adversrio inferir a informao original, pois o nico padro dessa tcnica o
valor usado como black marker. Por outro lado, essa tcnica praticamente inutiliza o
dado anonimizado para anlise, pois perde-se qualquer correlao entre os dados. Por
exemplo, com o uso do black marker no possvel correlacionar eventos entre os vrios
pacotes endereados para uma mesma rede.
Existem algumas variaes dessa tcnica como, por exemplo, usar o black marker
em partes do campo. Em um endereo IP pode-se anonimizar com essa tcnica apenas
os dois ltimos bytes do campo, por exemplo. Outra variao a tcnica chamada de
4.2.2
Substituio Aleatria
Como o prprio nome diz, essa tcnica faz uma substituio de valores em todas as
ocorrncias de um mesmo campo por valores aleatrios, mantendo entretanto, a relao
entre valores anonimizados e valores originais. Isto , cada valor encontrado pela
primeira vez substitudo por um valor aleatrio; novas ocorrncias do mesmo valor
original so sempre substitudos pelo mesmo valor j anonimizado. Basicamente o
anonimizador se vale de uma tabela que vai sendo preenchida com os valores utilizados.
Essa tcnica interessante porque ela diculta a identicao dos valores ori-
4.2.
55
ginais, pois a anonimizao feita de forma aleatria, mas ainda mantm algumas
caractersticas importantes para a anlise, pois permite que as distribuies de valores em cada campo se mantenham, mas est sujeita a ataques de injeo de dados,
descritos na seco 2.3.
4.2.3 Criptograa
A criptograa utilizada nas mais diversas reas para a segurana e sua caracterstica
substituir informaes existentes por outras, mantendo um mesmo padro de substituio, mas diferentemente da substituio aleatria, os valores originais dos campos
no so substitudos de forma aleatria e sim gerados atravs de um chave criptogrca. Dessa forma, se a mesma chave for usada vrias vezes o valor original sempre ser
anonimizado pelo mesmo valor, facilitando o processamento paralelo dos arquivos, pois
em todos eles os valores sero anonimazados da mesma forma.
Este tipo de anonimizao mantm o dado com um certo nvel de qualidade para
a pesquisa, porque se as informaes iguais so sempre substitudas por outras tambm
iguais, possvel fazer uma correlao entre os vrios pacotes de um arquivo de log.
O problema que, havendo essa correlao, esse log ca mais suscetvel a ataques de
injeo de dados, descritos na seo 2.3.
4.2.4 Deslocamento
A tcnica de deslocamento consiste em somar ao valor a ser anonimizado um valor xo
(s vezes combinado a um pequeno desvio aleatrio), alterando em todo arquivo de log
determinado campo com a mesma variao. Essa tcnica nos lembra a criptograa,
pois mantm o mesmo valor para os campos iguais, mas diferentemente daquela, os
valores so sempre gerados a partir de um valor xo somado ao valor do campo. Essa
anonimizao geralmente utilizada em campos relativos a tempo.
56
4.4.
Ferramentas de Anonimizao
57
iniciais iguais, a mesma quantidade de bits iguais aps a anonimizao. Sendo assim,
os bits iniciais que dois endereos IP compartilham so sempre transformados de forma
idntica [Burkhart et al., 2008a].
Xu et al. [2002] dene formalmente a anonimizao com preservao de prexo:
Dois endereos IP a = a1 a2 ...an e b = b1 b2 ...bn compartilham um
prexo de kbits (0 k n), se a1 a2 ...ak = b1 b2 ...bk e ak+1 6= bk+1 , onde k
< n. Uma funo de anonimizao dita ser de preservao de prexo, se
dado dois endereos IP a e b estes compartilham um prexo de kbits, F(a)
e F(b) tambm compartilham um prexo de kbits.
Dessa maneira, a preservao de prexo permite que os endereos IP mantenham
a relao hierrquica entre si aps a anonimizao, permitindo a identicao de uxos de pacotes de uma mesma rede, o que torna esse tipo de anonimizao mais til
para os pesquisadores que utilizam essa informao, por exemplo, para entender o
comportamento do roteamento [Xu et al., 2001].
Entretanto, o compromisso existente entre a qualidade da anonimizao e a qualidade da informao restante, faz com que essa maior permanncia de informao nos
4.4.1 Tcpdpriv
Desenvolvido em 1996, o tcpdpriv [Minshall, 1996] uma das mais antigas e conhecidas ferramentas de anonimizao. Ela anonimiza os dados coletados diretamente da
58
Tcpdpriv remove os payloads dos pacotes UDP e TCP e remove toda a rea de
dados do protocolo IP para outros tipos de protocolos. Quanto aos demais protocolos,
ela capaz de gerar diversos nveis de anonimizao, desde anonimizao colocando
zero nos valores dos campos (black marker ) at a anonimizao mantendo o mesmo
endereo IP anonimizado para as vrias ocorrncias de um endereo IP no arquivo
original e a tcnica de preservao de prexos. Alm disso, para evitar a identicao
do sistema operacional que gerou o pacote ela no preserva o campo de opes de TCP.
Xu et al. [2002] fazem uma crtica tcnica de preservao de prexos implementada pelo tcpdpriv pois, segundo os autores, a chave geradora dos endereos IP
anonimizados aleatria ento o tcpdpriv gera um tabela que relaciona os endereos
IP originais e seus endereos anonimizados correspondentes. Essa tcnica faz com que
um mesmo endereo IP seja anonimizado com endereos diferentes a cada vez que a
ferramenta executada. Como logs de trfego em geral so grandes eles tendem a ser
armazenados em vrios arquivos. O tcpdpriv no permite que se faa uma anonimizao simultnea de vrias partes de um mesmo log. A proposta de Xu et al. [2002] para
solucionar esse problema gerar os novos endereos atravs de uma chave criptogrca,
ou seja, se a chave for mantida, um endereo IP ser sempre transformado para um
mesmo valor.
4.4.2
Crypto-Pan
4.4.3
Tcpmkpub
4.4.
Ferramentas de Anonimizao
59
60
4.5.
Concluso
61
<RandomTimeShift>
<lowerTimeShiftLimit>60</lowerTimeShiftLimit>
<upperTimeShiftLimit>600</upperTimeShiftLimit>
<secondaryField>NONE</secondaryField>
</RandomTimeShift>
</field>
<field name="SRC_MAC">
<BinaryRandomPermutation/>
</field>
<field name="DST_MAC">
<BinaryBlackMarker>
<numMarks>24</numMarks>
<replacement>0</replacement>
</BinaryBlackMarker>
</field>
</policy>
4.5 Concluso
Neste captulo foram analisados cada um dos campos dos cabealhos dos principais
protocolos da arquitetura TCP/IP, sendo identicados os campos que podem compro-
62
Captulo 5
Metodologia Proposta
A metodologia proposta tem como objetivo auxiliar os administradores de rede na
tarefa de coleta e disponibilizao de dados de rede. Essa disponibilizao pode ser
solicitada pelos pesquisadores de uma empresa ou universidade ou at mesmo por uma
ordem judicial, que solicitaro os dados de acordo com uma poltica de anonimizao
que os auxiliaro em alguma pesquisa ou processo.
Diante desse pedido, que provavelmente pode vir acompanhado com uma ferramenta de anonimizao a ser utilizada ou das exigncias sobre quais dados podem ou
no ser ocultados (e como isso pode ser feito), o administrador de rede provavelmente
no ter a certeza que a sua expectativa de anonimizao ser atingida e, principalmente, no saber se os dados disponibilizados constituiro uma ameaa segurana
da sua rede ou se permitiro algum tipo de quebra da privacidade dos seus usurios.
Devido grande quantidade de dados que esses logs de rede podem gerar, analisar
esses dados manualmente para conferir se os dados foram anonimizados de acordo com
a poltica solicitada, se torna uma tarefa impossvel. Por isso, propomos o desenvolvimento de uma ferramenta que compara o arquivo original com o arquivo anonimizado
e faa uma anlise de quais dados foram anonimizados e qual o mtodo utilizado. A
seguir discutimos as caractersticas dessa ferramenta.
5.1 Arquitetura
A ferramenta proposta vem suprir a necessidade de automatizar a tarefa de anlise dos
arquivos anonimizados, conforme mostra a gura 5.1, a ferramenta desenvolvida tem
como entrada o arquivo de log original e o mesmo arquivo anonimizado pela ferramenta
de anonimizao sugerida.
Em seguida, a ferramenta compara os pacotes encontrados nos dois arquivos. Essa
63
64
5.2.1
5.2.
Fases da Metologia
65
66
5.2.2
5.2.3
Camada de Rede
Na camada de rede deve-se testar o tipo de pacote, ARP, IP, ICMP ou algum protocolo
de roteamente. Caso o pacote seja ARP, como mencionado na seo anterior, deve-se
vericar se h consistncia entre a anonimizao dos endereos de hardware com o
endereos do pacote. Caso o pacote seja ICMP ou de algum protocolo de roteamento,
a ferramenta dever alertar sobre os riscos da presena desse tipo de pacote no arquivo
anonimizado.
Se o pacote for IP, a ferramenta ter que analisar se houve algum tipo de anonimizao em alguns dos campos. Para os campos tipo de servio, comprimento
total, identificao, bit de no fragmentao do campo flags e o campo tempo
de vida (TTL), deve-se fazer apenas uma vericao de quantos pacotes no tive-
ram esses campos anonimizados, pois, como vimos, esses campos so utilizados para
5.2.
Fases da Metologia
67
5.2.4 Transporte
Na camada de transporte, primeiramente deve ser identicado se o pacote TCP ou
UDP (um outro protocolo exigiria regras de processamento particulares e deveria ser
claramente identicado no relatrio). Caso ele seja UDP, deve ser vericado se houve
anonimizao do campo soma de verificao (pela possibilidade de recuperao de
informao sensvel em alguns casos) e dos campos porta de origem e destino.
Estes ltimos podem ser importantes em anlise de trfego por protocolo, mas at
essa informao pode ser anonimizada em certos casos, pois a identicao de protocolos usados pode levar identicao de servidores ativos que podem ser atacados,
constituindo-se em uma ameaa de segurana em certos casos.
J no TCP, alm dos mesmos testes vistos no UDP, deve-se testar tambm os
campos nmero de seqncia, janela e opes do TCP para vericar se houve anonimizao, pois esses campos so utilizados pelos ataques de identicao de sistema
operacional, entre outros.
5.2.5 Aplicao
Finalmente, na camada de aplicao deve-se testar se h algum payload no pacote anonimizado, pois os dados contidos nele podem revelar informaes privadas dos usurios.
Caso exista algum pacote com payload, mesmo que seja apenas uma frao dos dados
originais, deve ser alertado do grande risco que essa informao pode trazer privacidade das pessoas, caso o arquivo de logs seja disponibilizado para a anlise. Uma
anlise mais detalhada de dados de aplicao normalmente de difcil implementao,
68
pela grande variedade de aplicaes possveis e da interpretao dos dados de cada uma
em termos de anonimato.
5.2.6
5.3.
Prottipo
69
5.3 Prottipo
Durante o trabalho foi desenvolvido um prottipo da ferramenta proposta, seguindo
os passos bsicos da metodologia. O objetivo nesse caso era vericar a viabilidade de
certos tipos de processamento, identicar os pontos mais complexos do processamento
e colocar em prtica os conceitos envolvidos.
Para o desenvolvimento, foram analisadas diversas plataformas para manipulao de arquivos de log de trfego de redes considerando o formato pcap usado pelo
tcpdump, hoje considerado um padro para essa rea. Existem diversas ferramentas
que fazem a anlise desses arquivos, mas todas com objetivos j bastante especcos que
no poderiam se alteradas para os nossos objetivos. Procuramos ento bibliotecas de
programao que simplicassem o desenvolvimento de uma nova ferramenta. Apesar de
haver bibliotecas at para a linguagem C para esse m, a caracterstica hierrquica, em
camadas, da arquitetura TCP/IP, faz com que o processamento dos diversos protocolos
encapsulados nos pacotes coletados seja mais simples em uma linguagem orientada a
objetos.
Bibliotecas orientadas a objetos para processamento de arquivos no formato PCAP
se aproveitam do fato de que cada entrada do arquivo possui certos campos em comum,
presentes em todos os pacotes (os campos de controle criados durante a coleta e os
campos do cabealho do nvel de rede local). Uma classe bsica descreve ento apenas
esses campos e permite seu acesso direto a partir das entradas do arquivo. Com base nas
informaes dos protocolos dos nveis inferiores pode-se identicar o tipo do protocolo
de cada camada superior. Para se analisar ento os campos do protocolo de um novo
nvel, basta que se utilize ento uma classe derivada da classe original, porm mais
especializada para identicar os campos especcos do protocolo. Dessa forma a cada
protocolo processado identica-se o tipo do protocolo superior e promove-se o objeto
contendo o pacote extrado do arquivo para uma classe mais especca que detalha
cada protocolo.
Bibliotecas com hiearquias de classes desse tipo existem para diversas linguagens,
como Perl, Python, Ruby, C++ e Java, entre outras (e, muitas vezes, diversas bibliotecas
70
Python [pylibpcap, 2009] e Ruby [rubypcap, 2009], mas a deciso nal foi adotar a
Java, com a biblioteca jpcap [Jpcap, 2009] para o desenvolvimento do prottipo. Essa
combinao ofereceu o melhor compromisso entre aspectos como documentao, poder
de expresso e simplicidade de utilizao.
O prottipo desenvolvido segue a metodologia proposta e tem como entrada os
nomes dos arquivos a serem analisados. O primeiro teste que executado o que
identica se os pacotes tratados nos dois arquivos so os mesmos e ele faz isso com base
no campo de tempo do tcpdump. A seguir, mostrada a parte da funo desenvolvida
que identica a diferena de segundos existente entre os pacotes iguais dos dois arquivos,
retornando esse valor para o programa, alm do tempo, o tipo de pacote e o nmero
de sequncia podem ser vericados para garantir maior conabilidade no resultado.
import jpcap.packet.*;
public class DiferencaSegundos2
{
public long dif_sec;
public void CalculaDiferenca(JpcapCaptor jpcap_real, JpcapCaptor jpcap_anon)
throws Exception
{
while(true)
{
Packet packet_anon=jpcap_anon.getPacket();
if(packet_anon==null || packet_anon==Packet.EOF) break;
while(true)
{
Packet packet_real=jpcap_real.getPacket();
if(packet_real==null || packet_real==Packet.EOF) break;
if(packet_anon.sec==packet_real.sec)
{
if(packet_anon.usec==packet_real.usec)
{
dif_sec = 0;
break;
}
else break;
}
if(packet_anon.sec!=packet_real.sec)
{
5.3.
Prottipo
71
if(packet_anon.usec==packet_real.usec)
{
dif_sec = packet_anon.sec-packet_real.sec;
break;
}
Tambm so vericados em todas as camadas da arquitetura TCP/IP se os campos identicados como campos passveis de recuperao de dados privados ou que
comprometam a segurana da rede, vistos na seo 4.1, foram realmente anonimizados. Isso feito comparando cada um desses campos do arquivo original e do arquivo
anonimizado, e ao nal gerado um relatrio com as estatticas dos campos anonimizado, conforme a gura 5.2.
a)
b)
Alm disso, o prottipo analisa mais detalhadamente o endereo IP, que o campo
72
com maior risco de identicao de usurio. Ele identica se houve anonimizao nos
endereos IP e se foi utilizada anonimizao por black marker e relata a quantidade
de endereos que foram anonimizados utilizando essa tcnica. A seguir, mostrado
uma parte do cdigo que faz a anlise do endereo IP para identicar se houve ou
no anonimizao nesse campo. Nesse cdigo vemos que os endereos IP so armazenados em uma coleo de hash, tornando mais fcil a identicao de ocorrncias de
anonimizaes diferentes para o mesmo endereo IP.
if (dlp_anon.frametype == EthernetPacket.ETHERTYPE_IP)
{
IPPacket ipp_anon = (IPPacket)packet_anon;
IPPacket ipp_real = (IPPacket)packet_real;
if (ipp_anon.src_ip.equals(ipp_real.src_ip)) //IP SRC nao foi anonimizado
{
qtd_ipsrc_naoanon=qtd_ipsrc_naoanon+1;
}
else
//IP SRC foi anonimizado
{
ipsrc_real = ipp_real.src_ip.getHostAddress();
ipsrc_anon = ipp_anon.src_ip.getHostAddress();
Collection<String> col = new HashSet<String>();
}
5.4 Concluso
Nesse captulo foi proposta uma metodologia que inclui o desenvolvimento de uma ferramenta que analisaria o arquivo de log original e o arquivo aps a anonimizao, o
principal objetivo dessa ferramenta facilitar a tarefa do administrador de rede que
precisa disponibilizar arquivos de logs para a pesquisa vericando se a informao contida em determinados campos que pode afetar a segurana da rede e/ou a privacidade
dos usurios foi anonimizado ou no.
5.4.
Concluso
73
Em seguida, feita uma anlise em cada camada da arquitetura TCP/IP, indicando quais campos devem ser comparados e o qual o tipo de anlise deve ser feito.
Por m, apresentado um prottipo dessa ferramenta que tenta comprovar a ecincia
e utilidade da ferramenta proposta.
Captulo 6
Concluso e Trabalhos Futuros
O uso da Internet cresce a cada dia e ao lado desse aumento cresce tambm a necessidade, por parte de auditores e pesquisadores, de usar os logs de trfego de rede para
propor novas solues ou analisar situaes que coloquem em risco a rede de uma empresa ou at mesmo o bom funcionamento da Internet. Para que essas pesquisas sejam
mais conveis o ideal que se utilizem dados diversicados e para isso necessrio a
troca desses dados entre as entidades de pesquisa.
Por outro lado, cresce tambm a preocupao com a circulao de dados com
informaes privadas, pois cada vez maior o nmero de banco de dados com informaes pessoais nas empresas. Diante disso, em um primeiro momento, diversos pases
comearam a legislar sobre o tratamento e a troca dos dados pessoais, regulamentando
o uso e manuteno dos mesmos. Com aumento de fraudes e crimes praticados atravs
da Internet, esses pases passaram a se preocupar com a manuteno e uso desses dados
para ajudar a solucionar esses delitos.
Dessa forma, os administradores de redes enfrentam um dilema, onde a necessidade de uso e troca de dados de conexo se torna cada dia maior e por outro lado as
legislaes limitam cada vez mais a divulgao de dados que contenham informaes
pessoais.
Diante disso, este trabalho apresentou um estudo no qual foram analisadas as
caractersticas tcnicas do trfego de rede IP sob a tica da privacidade e segurana de
rede, e tambm foi feita uma pesquisa e anlise das legislaes vigentes em alguns pases
e, claro, no Brasil, sobre o controle dos dados em geral e mais especicamente sobre
os dados de conexes de rede. Aps isso, foi proposta uma metologia e apresentada
um prottipo de uma ferramenta que auxilie o prossional a identicar se os dados que
pretende disponibilizar foram anonimizados da forma desejada.
Este trabalho, em um primeiro momento apresentou, a diculdade em lidar por
75
76
77
das questes envolvidas no uso da Internet entre os membros da sociedade pode fazer
com que leis mais especcas sejam desenvolvidas, nos casos ainda no previstos na
legislao atual.
A expanso do IPv6 outro aspecto que deve ser considerado. Apesar de conceitualmente no haver elementos signicativamente novos na operao da rede com
IPv6, os endereos, por exemplo, ganham novo formato e sero distribudos de forma
ainda a ser completamente denida. Isso pode levantar problemas com a manuteno
de anonimato em relao a endereos que hoje ainda no existem.
O prottipo desenvolvido apenas uma prova de conceito para ferramenta e a
metodologia de vericao propostas neste trabalho. Uma linha clara de ao seria o
desenvolvimento de uma ferramenta completa, aproveitando melhor recursos de congurao e extenso dinmicas para criar uma ferramenta que possa ser distribuda
para uso pela comunidade. Em particular, seria necessrio desenvolver um formato
(linguagem) para a descrio do que seriam polticas aceitveis de anonimizao e divulgao de dados, de forma que a ferramenta, ao invs de gerar um relatrio nal
com recomendaes de pontos a serem considerados pelo administrador, gerasse um
relatrio simplicado, simplesmente indicando quais pontos da poltica estariam sendo
observados/violados pela anonimizao sendo considerada.
Referncias Bibliogrcas
Allman, M. & Paxson, V. (2007). Issues and etiquette concerning use of share measurement data. In ACM, editor, Proceedings of the 7th ACM SIGCOMM conference
sium on Discrete algorithm, pp. 961--969, New York, NY, USA. ACM Press.
Bianchi,
G.;
Rao, S.;
Boschi,
E.;
Ricciato, F.;
Gaudino,
F.;
Koutsoloukas,
L.;
Lioudakis,
G.;
Privacy-
Disponvel em
http://www.salzburgresearch.at/research/gfx/mobsum08-cameraready.pdf.
Bianchi, G.; Teoli, S. & Pomposini, M. (2008b). New directions in privacy-preserving
anomaly detection for network trac. In Proceedings of the 1st ACM workshop on
E.
(Acessado
em
01/09/2009).
Tcpurify
disponvel
em
http://irg.cs.ohiou.edu/ eblanton/tcpurify/.
Burkhart, M.; Brauckho, D. & May, M. (2008a). On the utility of anonymized ow
traces for anomaly detection. In Proceedings of the 19th ITC Specialist Seminar on
80
Referncias Bibliogrficas
Network & Distributed System Security Symposium (NDSS 07), pp. 3547.
Coull, S. E.; Wright, C. V.; Keromytis, A. D.; Monrose, F. & Reiter, M. (2008). Taming
the devil: Techniques for evaluation anonymized network data. In Proceedings of the
SIGCOMM 05 Workshops.
Ipsumdump (Acessado em 01/09/2009). Disponvel em http://www.cs.ucla.edu/ kohler/ipsumdump/.
Jesus, D. E. d. (1997). Direito Penal, volume 2. Saraiva.
Jpcap
(Acessado
em
01/09/2009).
Disponvel
em
http://netresearch.ics.uci.edu/kfujii/jpcap/doc/.
Keardsri, W.; Teng-amnuay, Y. & Prathombutr, P. (2009). Dening privacy leves for ip
address anonymization. In 13o International Symposium on Computational Science
81
Referncias Bibliogrficas
Kelly, D. J.; Baldwin, R. O.; Raines, R. A.; Grimaila, M. R. & Mullins, B. E. (2008).
A survey of state-of-the-art in anonymity metrics. In NDA 08.
King, J.; Lakaraju, K. & Slagell, A. (2009). A taxomony and adversarial model for
attacks against network log anonymization. In SAC 09.
Kohno, T.; Broido, A. & Clay, K. C. (2005). Remote physical device ngerprinting.
In Proceedings of the IEEE Symposium on Security and Privacy.
Koukis, D.; Antonatos, S. & Anagnostakis, K. G. (2006). On the privacy risks of
publishing anonymized ip network traces. In Proceedings of the Conference on Com-
M.
A.
(1992).
Voto
sobre
petio
577
acrdo
stf.
http://www.stf.jus.br/portal/jurisprudencia/listarJurisprudencia.asp?s1=PetQO.SCLA.+E+577.NUME.&base=baseAcordaos.
Minshall,
G.
(1996).
Tcpdpriv
disponvel
em
http://ita.ee.lbl.gov/html/contrib/tcpdpriv.html em 01/09/2009.
Netow
(Acessado
em
01/09/2009).
Disponvel
em
Disponvel
em
http://www.cisco.com/web/go/netow.
Nmap
(Acessado
em
01/09/2009).
http://nmap.org/book/osdetect.html.
Ntop (Acessado em 01/09/2009). Disponvel em http://www.ntop.org/.
Ohm, P.; Sicker, D. & Grunwald, D. (2007). Legal issues surrounding monitoring
during network research. In ACM, editor, Proceedings of the 7th ACM SIGCOMM
82
Referncias Bibliogrficas
Pang, R. & Paxson, V. (2003). A high-level programming environment for packet trace
anonymization and transformation. In Proceedings of the 2003 Conference on Appli-
(Acessado
em
01/09/2009).
Disponvel
em
http://sourceforge.net/projects/pylibpcap/.
Rabinovich, M. & Spatscheck, O. (2002). Web Caching and Replication, chapter Basic
Mechanisms for Request Distribution, pp. 231--246. Addison-Wesley.
Ramaswamy, R. & Wolf, T. (2007). High-speed prex-preserving ip address anonymization for passive measurement systems. In IEEE/ACM Transactions on Networking
(TON).
83
Referncias Bibliogrficas
Ribeiro, B.; Chen, W.; Miklau, G. & Towsley, D. (2008). Analyzing privacy in enterprise packet trace anonymization. In Proceedings of the 15th Annual Network and
of the Second International Workshop Mathematical Methods, Models and Architectures for Computer Networks Security.
Silva, J. A. d. (1997). Curso de Direito Constitucional Positivo. Malheiros Editores.
Slagell, A.; Lakkaraju, K. & Luo, K. (2006). Flaim: A multi-level anonymization framework for computer and network logs. In Proceedings of the 20th Large Installation
&
libpcap
(Acessado
em
01/09/2009).
Disponvel
em
http://www.tcpdump.org.
Warren, S. D. & Brandeis, L. D. (1890). The right to privacy. harvard law review 4.
Wireshark (Acessado em 01/09/2009). Disponvel em http://www.wireshark.org/.
84
Referncias Bibliogrficas
Xu, J.; Fan, J.; Ammar, M. & Moon, S. B. (2001). On the design and performance
of prex-preserving ip trac trace anonymization. In Proceedings of the ACM SIG-
Network Protocols.