Perlin, Tiago

UNIVERSIDADE FEDERAL DE SANTA MARIA
CENTRO DE TECNOLOGIA
PROGRAMA DE PS-GRADUAO EM INFORMTICA
UM DETECTOR DE ANOMALIAS DE
TRFEGO DE REDE BASEADO EM
WAVELETS
DISSERTAO DE MESTRADO
Tiago Perlin
Santa Maria, RS, Brasil
2010
UM DETECTOR DE ANOMALIAS DE TRFEGO DE
REDE BASEADO EM WAVELETS
por
Tiago Perlin
Dissertao apresentada ao Programa de Ps-Graduao em Informtica
da Universidade Federal de Santa Maria (UFSM, RS), como requisito
parcial para a obteno do grau de
Mestre em Computao
Orientador: Prof. Dr. Raul Ceretta Nunes
Co-orientador: Prof
a
. Dr
a
. Alice de Jesus Kozakevicius
Santa Maria, RS, Brasil
2010
Universidade Federal de Santa Maria
Centro de Tecnologia
Programa de Ps-Graduao em Informtica
A Comisso Examinadora, abaixo assinada,
aprova a Dissertao de Mestrado
UM DETECTOR DE ANOMALIAS DE TRFEGO DE REDE
BASEADO EM WAVELETS
elaborada por
Tiago Perlin
como requisito parcial para obteno do grau de
Mestre em Computao
COMISSO EXAMINADORA:
Prof. Dr. Raul Ceretta Nunes
(Presidente/Orientador)
Prof. Dr. Christian Emilio Schaerer Serra (UNA)
Prof
a
. Dr
a
. Roseclea Duarte Medina (UFSM)
Santa Maria, 07 de outubro de 2010.
Dedicado aos meus pais Srgio e Ivone.
AGRADECIMENTOS
Ao Programa de Ps-Graduao em Informtica (PPGI) da UFSM pela oportunidade
de realizao deste trabalho.
Cappes (Coordenao de Aperfeioamento de Pessoal de Nvel Superior) pelo apoio
nanceiro fundamental para a realizao dos trabalhos.
Ao Instituto Nacional de Pesquisas Espaciais (INPE) que, por meio de uma parceria
com GMicro da UFSM, disponibilizou uma sala e infraestrutura para o Laboratrio de
Gerncia e Segurana de Redes de Computadores.
Aos integrantes dos grupos de pesquisa Gesto e Tecnologia em Segurana da Infor-
mao (GTSeg) e Grupo de Microeletrnica (GMicro) pela acolhida.
Em especial ao orientador deste trabalho Prof. Dr. Raul Ceretta Nunes pela conana
depositada, pela orientao e pelo esforo em garantir os meios para a realizao deste
trabalho.
Em especial co-orientadora neste trabalho Prof
a
. Dr
a
pela orientao e sugestes em todas as fases do trabalho.
Ao ex-colega de grupo de pesquisa Bruno Lopes Dalmazo pela colaborao no incio
do projeto, pelo companheirismo e amizade.
Ao colega Renato Preigschadt de Azevedo pela ajuda na coleta de dados e pela reviso
de artigos e deste trabalho.
Aos colegas Francisco Vogt e rico Hoff Amaral pela ajuda nas atividades de pes-
quisa.
Ao amigo Dr. Sayed Mohammad Salman pela amizade e pela ajuda no idioma ingls.
Aos meus pais Sergio e Ivone e minha namorada Glaucia pelo carinho, compreenso
e apoio durante todo o curso.
The only truly secure system is one that is powered off,
cast in a block of concrete and sealed in a lead-lined room
with armed guards.
Gene Spafford
RESUMO
Dissertao de Mestrado
UM DETECTOR DE ANOMALIAS DE TRFEGO DE REDE BASEADO EM
WAVELETS
Autor: Tiago Perlin
Orientador: Prof. Dr. Raul Ceretta Nunes
Co-orientador: Prof
a
. Dr
a
Local e data da defesa: Santa Maria, 07 de outubro de 2010.
Ataques em redes de computadores comprometem a segurana do sistema e degradam
o desempenho da rede causando prejuzos aos usurios e s organizaes. Sistemas De-
tectores de Intruses de Rede so usados para a deteco de ataques ou outras atividades
maliciosas por meio da anlise do trfego. A deteco de anomalias uma abordagem
de anlise usada na deteco de intruso onde se assume que a presena de anomalias no
trfego, desvios em relao a um comportamento padro, indicativo de um ataque ou
defeito. Uma das principais diculdades dos Sistemas de Deteco de Intruso de Rede
baseados em anomalias est na construo do perl devido complexidade do trfego de
rede. Mtodos derivados da Anlise de Sinais, dentre os quais, a Transformada Wavelet,
tm recentemente demonstrado aplicabilidade na deteco de anomalias de rede. Neste
trabalho prope-se um novo mecanismo baseado em wavelets para a deteco de intruses
de rede, por meio da anlise dos descritores do trfego. O mecanismo de anlise proposto
baseado na Transformada Wavelet Discreta de Daubechies do sinal formado a partir dos
descritores do trfego, o clculo de thresholds e anlise direta dos coecientes wavelet
para a indicao de anomalias. Assume-se que um ataque gera uma anomalia (alterao)
no padro de trfego, perceptvel nos coecientes wavelet. O mecanismo de deteco
genrico, para trabalhar com diferentes descritores, e apresenta baixa complexidade com-
putacional, o que potencializa a anlise em tempo real. Nos experimentos, o mecanismo
demonstrou boa taxa de deteco de ataques, com poucos falsos positivos e baixo custo
de processamento.
Palavras-chave: Segurana; Ataques; Wavelets.
ABSTRACT
Dissertao de Mestrado
WAVELET-BASED ANOMALY DETECTION IN NETWORK TRAFFIC
Author: Tiago Perlin
Advisor: Prof. Dr. Raul Ceretta Nunes
Coadvisor: Prof
a
. Dr
a
Attacks on computer networks compromises the security of the system and degrade
the performance of the network causing problems to users and organizations. Network-
based Intrusion Detection Systems are used to detect attacks or malicious activity by
analyzing the network trafc. The anomaly-based detection approach is used for in-
trusion detection. It is assumed that the presence of trafc anomalies, deviations from
standard behavior, is indicative of an attack or malfunction. A major difculty of an
anomaly-based Intrusion Detection System is the construction of the prole due to the
complexity of network trafc. Methods derived from Signal Analysis, among which, the
Wavelet Transform, have recently demonstrated applicability in detecting anomalies in
network. This work proposes a new wavelet-based mechanism to detect network intru-
sions, through the analysis of descriptors of trafc. The mechanism proposed is based on
Discrete Wavelet Transform of signal formed from the trafc descriptors, the calculation
of thresholds and direct analysis of wavelet coefcients for detection of anomalies. We
assume that an attack generates an anomaly (change) in the trafc pattern, visible in the
wavelet coefcients. The detection mechanism is generic, to work with different descrip-
tors, and has low computational complexity, which enhances the real-time analysis. In the
experiments, the mechanism demonstrated good detection rate of attacks with few false
positives and low processing time.
Keywords: Security; Attacks; Wavelets.
LISTA DE FIGURAS
Figura 2.1 Prova grca da auto-similaridade do trfego de rede. O trfego
de rede (pacotes por unidade de tempo), coluna da esquerda, pos-
sui forma semelhante independente do nvel de agregao (escala de
tempo), em contraste com o trfego sinttico, da direita. Fonte: (LE-
LAND et al., 1994). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 3.1 Funo Escala, (t), e Wavelet, (t), de Haar. . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 3.2 Funes Escala de Haar quando j = 0, para k = 0 e k = 1, no
intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 3.3 Funes Wavelet de Haar quando j = 0, para k = 0 e k = 1, no
intervalo [0, 1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 3.4 Funo Escala (t) e funo Wavelet (t) Daubechies D4 (2 momen-
tos nulos). Fonte: (NIELSEN, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 3.5 Funes Escala de D4 quando j = 0, para k = 0, k = 1, k = 2 e
k = 3. Fonte: (NIELSEN, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 3.6 Funes Wavelet de D4 quando j = 0, para k = 0, k = 1, k = 2 e
k = 3. Fonte: (NIELSEN, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 3.7 Funo Escala (t) e funo Wavelet (t) Daubechies D6. Fonte:
(NIELSEN, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 3.8 Representao grca do Algoritmo Piramidal de Mallat, Transfor-
mada Wavelet Discreta direta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Figura 3.9 Representao da Transformada Wavelet Discreta para um sinal ge-
nrico y com 16 amostras (2
4
). Os coecientes sombreados, obtidos
em cada nvel, permanecem inalterados nos prximos nveis. Neste
exemplo a transformao vai at o maior nvel possvel (j = 4). . . . . . . 56
Figura 3.10 Representao grca do Algoritmo Piramidal de Mallat, Transfor-
mada Wavelet Discreta Inversa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Figura 3.11 Transformada Wavelet Discreta, wavelet de Haar, gerao dos coe-
cientes escala c
j,k
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Figura 3.12 Transformada Wavelet Discreta, wavelet de Haar, gerao dos coe-
cientes wavelet d
j,k
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Figura 3.13 Transformada Wavelet Discreta inversa, wavelet de Haar, reconstru-
o dos coecientes wavelet c
j,k
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 3.14 Transformada Wavelet Discreta, wavelet D4, gerao dos coecientes
escala c
j,k
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Figura 3.15 Transformada Wavelet Discreta, wavelet D4, gerao dos coecientes
wavelet d
j,k
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Figura 3.16 Exemplo da Transformada Wavelet Discreta, wavelet de Haar, para
umsinal discreto y[t] gerando os coecientes transformada c
3
, d
3
, d
2
, d
1
.
Nos pontos onde a funo constante os detalhes d
j,k
corresponden-
tes so nulos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Figura 3.17 Exemplo da Transformada Wavelet Discreta, wavelet Daubehies D4.
Nos pontos onde a funo constante, os detalhes d
j,k
corresponden-
tes so nulos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 3.18 Comparao da TWD tradicional ( esquerda) com a arvore de de-
composies da TWD Packet ( diretita). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Figura 4.1 Arquitetura do Sistema Detector de Intruses de rede baseado em
Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Figura 4.2 Fluxograma do funcionamento do mdulo de deteco de anomalias. . 70
Figura 4.3 Atualizao da janela de observao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Figura 4.4 Representao da Transformada Wavelet Discreta de um sinal y com
e 3 nveis de transformao. Os coecientes wavelet sombreados,
obtidos em cada nvel, permanecem inalterados nos prximos nveis
subsequentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Figura 4.5 Exemplo deteco de anomalias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Figura 4.6 Coecientes wavelet, d
2
, com respectivos valores de threshold. . . . . . . . 78
Figura 5.1 Diagrama de Classes do Detector de Intruses de rede baseado em
Wavelets- DIbW. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Figura 6.1 Transformada wavelet do trfego de rede - Trfego original (A) e co-
ecientes wavelet (detalhes), d
1
(B), d
2
(C), d
3
(D). O trfego de rede
apresenta alta variabilidade representada pelas curvas no suveis, ca-
racterizadas por picos, nos coecientes wavelet (detalhes) em todos
os nveis da transformada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Figura 6.2 Trfego de rede (A), corresponde ao total de pacotes IP capturados a
cada 5 segundos, e os alarmes (B) gerados pelo DIbW. As setas (A)
indicam a localizao os ataques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Figura 6.3 Coecientes wavelet (detalhes) d
1
, d
2
e d
3
e os respectivos valores de
Threshold. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Figura 6.4 Ataque do tipo Satan (A) detectado no primeiro nvel d
1
(B) dos co-
ecientes wavelet, gerando um alarme (C). . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Figura 6.5 Ataque do tipo satan (A) detectado no primeiro e segundo nveis, d
1
(B) e d
2
(C) dos coecientes wavelet, gerando alarmes (D). . . . . . . . . . . . 104
Figura 6.6 Ataque do tipo crashiis (A) detectado no segundo nvel d
2
(C) dos
coecientes wavelet, gerando dois alarmes consecutivos (D). . . . . . . . . . 105
Figura 6.7 Falso Positivo, oscilao normal do trfego que pormgerou umalarme.106
Figura 6.8 Trfego de rede correspondente aos pacotes do protocolo TCP (A)
capturados a cada 5 segundos e os alarmes gerados pelo DIBW (B). . . 108
Figura 6.9 Trfego de rede correspondente aos pacotes do protocolo UDP cap-
turados a cada 5 segundos (A) e os alarmes gerados pelo DIBW (B). . . 109
Figura 6.10 Trfego de rede correspondente aos pacotes do protocolo ICMP cap-
turados a cada 5 segundos (A) e os alarmes gerados pelo DIbW (B). . . 111
Figura 6.11 Tempo de processamento de 230608 amostras de trfego de rede
usando as funes wavelet D2, D4, D6 e D8 com tamanhos de ja-
nela de 64, 128 ou 256 pontos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
LISTA DE TABELAS
Tabela 3.1 Coecientes do Filtro passa baixa G das wavelets D2, D4 e D6.
Fonte: (GOUD; BINULAL; K.P, 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Tabela 4.1 Probabilidade emrelao ao desvio padro para uma distribuio nor-
mal. Construda com base em (GIBILISCO, 2004, p. 161) . . . . . . . . . . . 75
Tabela 6.1 Lista com ataques DARPA. Fonte: (DARPA, 1999). . . . . . . . . . . . . . . . . . 91
Tabela 6.2 Estatsticas dos coecientes wavelet do trfego de rede padro. . . . . . . . 97
Tabela 6.3 Estatsticas dos coecientes wavelet (detalhes) da transformada wa-
velet do trfego de rede padro aps a Transformada Logartmica. . . . . 98
Tabela 6.4 Estatsticas dos coecientes wavelet (detalhes) da transformada wa-
velet do trfego de rede padro aps a Transformada Raiz Quadrada. . 98
Tabela 6.5 Matriz de Confuso. Fonte: adaptado de (QIN, 2005) . . . . . . . . . . . . . . . . 99
Tabela 6.6 Resultados da anlise de todos os pacotes do trfego de rede. . . . . . . . . . 104
Tabela 6.7 Ataques detectados usando o trfego total, janela de tamanho 128 e
wavelet D8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Tabela 6.8 Resultados da anlise dos os pacotes TCP do trfego de rede. . . . . . . . . . 108
Tabela 6.9 Ataques detectados usando o trfego do protocolo TCP, janela de ta-
manho 128 e wavelet D8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Tabela 6.10 Resultados da anlise dos os pacotes UDP do trfego de rede. . . . . . . . . 110
Tabela 6.11 Ataques detectados usando o trfego do protocolo UDP, janela de
tamanho 128 e wavelet D8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Tabela 6.12 Resultados da anlise dos os pacotes ICMP do trfego de rede. . . . . . . . 110
Tabela 6.13 Ataques detectados usando o trfego do protocolo ICMP, janela de
tamanho 128 e wavelet D8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Tabela 6.14 Ataques detectados usando diferentes descritores de trfego de rede,
janela de tamanho 128 e wavelet D8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Tabela 6.15 Resultado da anlise de todos os descritores: IP, TCP, UDP e ICMP
com janela de tamanho 128 e wavelet D8. . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Tabela 6.16 Teste de desempenho do DIbW. Uma sequncia de amostras (230608
amostras) de trfego de rede foi submetida ao sistema para cada con-
gurao (tamanho da janela de observao e base wavelet) e foi ava-
liado o tempo total de execuo e calculado o tempo por amostra. . . . . 114
LISTA DE ALGORITMOS
3.1 Filtragem de sinal com Wavelets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1 Algoritmo do mecanismo de deteco de anomalias de rede. . . . . . . . . . . . . . . . 79
5.1 Algoritmo transformada Raiz Quadrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Algoritmo transformada Logartmica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3 Algoritmo para gerao de Alarmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
LISTA DE ABREVIATURAS E SIGLAS
ACK Acknowledgment
ARX AutoRegressive with eXogenous input
CUSUM CUmulative SUM
DARPA Defense Advanced Research Projects Agency
DoS Denial of Service (ataque de negao de servio)
FIN Finalization
FTP File Transfer Protocol(Protocolo de Transferncia de Arquivo)
DIbW Detector de Intruses de rede baseado em Wavelets
EWMA Exponentially Weighted Moving Average (Mdias Mveis Exponencialmente
Ponderadas)
HTTP Hypertext Transfer Protocol (Protocolo de Transferncia de Hipertexto)
ICMP Internet Control Message Protocol
IP Internet Protocol (Protocolo Internet)
LRD Long-Range Dependence (Dependncia de Longa Durao)
MAD Median absolute deviation
MIB Management Information Base
MRA MultiResolution Analysis (Anlise em Resoluo Mltipla)
PDF Probability Density Function (Funo Densidade de Probabilidade)
ROC Receiver Operatoring Characteristic
SDI Sistema de Deteco de Intruso
SDIH Sistema de Deteco de Intruso de Host
SDIR Sistema de Deteco de Intruso de Rede
SDIR-A Sistema de Deteco de Intruso de Rede baseado em Anomalias
SMTP Simple Mail Transfer Protocol
SNMP Simple Network Management Protocol
SYN Synchronization
SRD Short-Range Dependence (Dependncia de Curta Durao)
TCP Transmission Control Protocol (Protocolo de Controle de Transmisso)
TW Transformada Wavelet
TWC Transformada Wavelet Contnua
TWD Transformada Wavelet Discreta
TWP Transformada Wavelet Packet
UDP User Datagram Protocol (Protocolo de Datagrama de Usurio)
LISTA DE SMBOLOS
r() Funo de autocorrelao - (ACF - AutoCorrelation Function)
Mdia
Desvio Padro
Funo escala
Funo Wavelet
k,l
Funo Kronecker delta
Valor do Threshold
t Intervalo de amostragem
L
2
(R) Espao vetorial cujos elementos so funes de quadrado integrvel
V
j
Subespao da Anlise em Multi-Resoluo
W
j
Subespao Wavelet
N Nmero de elementos no vetor
H Vetor de coeciente do ltro passa-alta (ltro wavelet)
G Vetor de coeciente do ltro passa-baixa (ltro escala)
D Suporte dos coecientes dos ltros wavelet
P Nmero de momentos nulos P = D/2
N Conjunto dos Nmeros Naturais
R Conjunto dos Nmeros Reais
Z Conjunto dos Nmeros Inteiros Relativos
O(N) Complexidade computacional de ordem linear
O(N log N) Complexidade computacional de ordem loglinear
y(t) Sinal original
t Tempo
h
k
Constante do vetor H
g
k
Constante do vetor G
j Escala (inteiro)
c
j,k
Coeciente de aproximao ou escala
c
j
Vetor de coecientes escala no nvel j
d
j,k
Coeciente de detalhe ou wavelet
d
j
Vetor de coecientes de detalhe ou wavelet no nvel j
w Vetor de todos os coecientes da Transformada Wavelet
supp() Suporte
Tresh
Operao de corte dos coecientes (Threshold)

C Constante usada para calcular o valor do threshold
_
Integral
| | Norma
, ) Produto Interno
Chaves; Objetos dentro delas so elementos de um Conjunto
( ) Parnteses; Objetos dentro deles so elementos de um Vetor
Subconjunto
Perpendicular
Soma ortogonal
Unio
Interseco
x| O menor inteiro maior que x
x| O maior inteiro menor que x
x)
q
Operador mdulo x mod q
SUMRIO
1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.1 Contexto e Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2 Objetivos e contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Escopo e organizao do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 DETECO DE INTRUSO EM REDES DE COMPUTADORES . . . . . . . . 24
2.1 Caractersticas do Trfego de rede. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Sistemas Detectores de Intruso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 Sistemas Detectores de Intruso baseados em Host . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Sistemas Detectores de Intruso de Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.3 Deteco de Intruses de Rede baseada em assinaturas . . . . . . . . . . . . . . . . . . . 33
2.2.4 Deteco de Intruses de Rede baseada em anomalias . . . . . . . . . . . . . . . . . . . . 33
2.3 Deteco de anomalias de rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1 Seleo de variveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.2 Transformao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.3 Gerao de alarmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.5 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 WAVELETS E THRESHOLD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1 Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Propriedades da funo Escala e da funo Wavelet . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2 Exemplos de Funes Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1.3 Wavelets e ltros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.4 Anlise em multirresoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.5 A Transformada Wavelet Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.6 A Transformada Wavelet Discreta Packet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Threshold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4 PROPOSTA DE UM DETECTOR DE INTRUSES DE REDE BASE-
ADO EM WAVELETS- DIBW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1 Arquitetura de um Sistema Detector de Intruses de Rede. . . . . . . . . . . . . . . 68
4.2 Proposio de um mecanismo de deteco de anomalias de rede baseado
em wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.1 Contadores do Trfego de Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.2 Gerao do sinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2.3 A Transformada Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2.4 Normalizao dos coecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2.5 Clculo do valor do Threshold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.6 Deteco das anomalias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3 Trabalhos relacionados e consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5 DESENVOLVIMENTO DO DETECTOR DE INTRUSES DE REDE
BASEADO EM WAVELETS- DIBW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.1 Ambiente de desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2 Framework para deteco de anomalias de rede . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.2.1 Janela de Observao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2.2 Transformada Wavelet Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2.3 Normalizao dos coecientes wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2.4 Threshold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.5 Gerao de alarmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6 VALIDAODAABORDAGEMDEDETECODEANOMALIAS DE
REDE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.1 A base de dados de trfego de rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.1.1 Seleo dos dados para os experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.1.2 Preparao dos dados para os experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2 Denio da Funo de Normalizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.3 Testes de Deteco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.3.1 Estudo de caso 1 - Trfego IP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.2 Estudo de caso 2 - Trfego TCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.3.3 Estudo de caso 3 - Trfego UDP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.3.4 Estudo de caso 4 - Trfego ICMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.4 Anlise de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7 CONCLUSES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.1 Principais Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
1 INTRODUO
A expanso da Internet aumenta a exposio das redes de computadores ameaas,
como ataques aos sistemas computacionais e a infraestrutura, o acesso indevido s infor-
maes dos usurios e abusos de privilgios. Neste cenrio de interconexo global de
dispositivos computacionais, medidas preventivas e ferramentas de deteco so essenci-
ais para garantir a segurana de todo o ambiente computacional pessoal e empresarial.
Considerando-se a pesquisa em segurana da informao e dos sistemas computacio-
nais, esta dissertao trata especicamente da deteco de anomalias no trfego de rede e
prope um mecanismo para anlise do trfego de rede em tempo real.
1.1 Contexto e Motivao
Medidas preventivas devem ser includas prioritariamente em qualquer plano para ga-
rantir a segurana de um sistema. Estas medidas so constitudas principalmente por
(KIZZA, 2005): controles de acessos fsico e lgico, ferramentas de software como -
rewalls, dispositivos de hardware e conguraes. Concomitantemente ao desenvolvi-
mento e implementao de medidas preventivas, atacantes tm explorado vulnerabilida-
des (principalmente de software, mas tambm de hardware e protocolos) e brechas na
congurao de sistemas, para obter acesso e efetivar os ataques. As medidas preven-
tivas, assim, apesar de essenciais, possuem limitaes e muitas vezes so contornveis
pelos atacantes.
Sistemas de Deteco de Intruso (SDI) (NORTHCUTT; NOVAK, 2002) so ferra-
mentas que visam melhorar a segurana em um sistema computacional. Deteco de
Intruso so tcnicas usadas para detectar ataques ou perturbaes um sistema compu-
tacional ou rede de computadores (KIZZA, 2005). O SDI usa as informaes coletadas
do sistema monitorado (computador, rede ou segmento de rede) para detectar intruses.
Enquanto as medidas de preveno ativamente buscam evitar que ataques aconteam, os
sistemas de deteco procura identicar ataques pela anlise passiva do trfego da rede ou
21
os logs do sistema. Aps a deteco de uma ataque, um SDI deve gerar uma resposta, que
pode ser uma interveno automatizada no sistema ou um alerta para interveno humana.
Especicamente para redes de computadores, tem-se os Sistemas de Deteco de In-
truso de Rede (SDIR) (NORTHCUTT; NOVAK, 2002) que usam informaes coletadas
em uma rede ou segmento de rede para identicar ataques tenham ocorrido ou estejam
ocorrendo. Para a anlise dos dados coletados da rede, os SDIR usam, principalmente a
abordagem baseada em assinaturas e a abordagem baseada em anomalias. Ambas aborda-
gens apresentam suas peculiaridades e limitaes. A abordagem baseada em assinaturas
requer um conhecimento prvio a respeito da forma como cada ataque a uma rede ocorre,
ou seja, sua assinatura. Por isso, so menos ecientes na identicao de ataques que
usam tcnicas ainda desconhecidas. J a abordagem baseada na deteco de anomalias,
que procura detectar alteraes no padro do trfego em relao ao perl da rede, pode
gerar um excesso de falsos positivos, dicultando a interveno automatizada ou acarre-
tando a gerao de muitos falsos alertas para a interveno humana. A pesquisa na rea
de Deteco de Intruso Rede, entre outras coisas, busca tratar destes problemas.
O constante aumento do volume de dados trafegados nas redes de computadores, ge-
rado pela incluso de novos computadores e dispositivos e pelo desenvolvimento de no-
vas aplicaes baseadas na Internet, diculta a coleta de dados por um SDIR. Da mesma
forma a complexidade das redes, o volume elevado de trfego, bem como, caractersticas
intrnsecas do trfego de rede (STOEV et al., 2005) (SCHERRER et al., 2007) dicultam
a anlise e consequente Deteco de Intruses. Neste contexto, mtodos de anlise de
dados de rede que possam trabalhar em tempo real (online) so desejveis.
Este trabalho motivado pela necessidade de deteco correta e em tempo hbil de
anomalias de rede. Como forma de complementar outros mecanismos de segurana, a
deteco de anomalias de rede em tempo real importante para que o administrador seja
noticado e possa providenciar os ajustes necessrios no sistema para mitigar possveis
ataques.
A deteco de anomalias de rede uma rea de pesquisa bastante ativa, com alguns
trabalhos recentes (FARRAPOSO, 2009) (BOLZONI, 2009). Na pesquisa e desenvolvi-
mento de um SDIR baseado em anomalia um dos pontos essenciais a construo de
um perl da rede. A construo do perl da rede depende do mtodo de anlise usado
e implica no conhecimento das caractersticas especcas do trfego de rede. Neste sen-
tido, h diversos mtodos de deteco de anomalias no trfego de rede, como: mtodos
baseados em anlise estatstica (SAMAAN; KARMOUCH, 2008) e estatstica bayesiana
(LIU et al., 2008); mtodos de minerao de dados, como algoritmos de agrupamento
22
(LI; LEE, 2003) e lgica fuzzy (YAO; ZHITANG; SHUYU, 2006); mtodos de inteli-
gncia articial, como sistemas imunolgicos articiais (GUANGMIN, 2008) e algorit-
mos genticos (SELVAKANI; RAJESH, 2007); e mtodos baseados na anlise de sinais
(BARFORD et al., 2002) (THOTTAN; JI, 2003). No contexto dos mtodos baseados na
anlise de sinais, a Transformada Wavelet (NIELSEN, 1998) mostra-se adequada para a
modelagem do trfego de rede em alguns trabalhos (BARFORD et al., 2002) (SOULE;
SALAMATIAN; TAFT, 2005) (HUANG; THAREJA; SHIN, 2006) (GAO et al., 2006)
(LU; TAVALLAEE; GHORBANI, 2008) (KIM; REDDY, 2008).
1.2 Objetivos e contribuies
Na Deteco de Anomalias de Rede, o mtodo de anlise de vital importncia, pois
inuencia diretamente no desempenho e ecincia do detector. A abordagem em tempo
real, ainda, apresenta alguns desaos, por precisar de resposta a um determinado evento
suspeito em tempo reduzido. O tempo de resposta (tempo de reao) reduzido visa mini-
mizar o impacto causado pela possvel Intruso. Quanto menor o tempo de resposta, no
entanto, menos informaes sobre as consequncias do evento so coletadas. O mtodo
de deteco precisa ser computacionalmente eciente para permitir tempos de resposta
reduzidos.
Este trabalho prope um mecanismo de anlise do trfego de rede para a deteco
de Intruses. Por meio da anlise dos descritores do trfego de rede, busca-se encontrar
anomalias de trfego, considerando-se anomalias como possveis Intruses. Omecanismo
de anlise proposto baseado na Transformada Wavelet discreta do sinal formado a partir
dos descritores do trfego padro de rede e a denio de thresholds para a indicao de
anomalias, assumindo-se que um ataque ou intruso gera uma anomalia (alterao) no
padro de trfego, perceptvel nos coecientes da Transformada Wavelet. O mecanismo
possui baixa complexidade computacional, permitindo a utilizao em anlises em tempo
real, e genrica para trabalhar com diferentes variveis descritivas do trfego de rede.
Este trabalho busca contribuir para a deteco de anomalias de rede ao propor umnovo
mecanismo de deteco de anomalias de rede em tempo real baseada na transformada
wavelet discreta; demonstrar os requisitos e desaos na implementao da abordagem de
deteco de anomalias de rede; propor uma arquitetura adaptada para o uso em deteco
de anomalias de rede, considerando sequncia de amostras de descritores de rede; e por
m demonstrar que a abordagem proposta pode ser empregada em Detectores de Intruso
de tempo real.
23
1.3 Escopo e organizao do texto
Na deteco de anomalias de rede so importantes a escolha do conjunto de variveis
de observao e o mtodo de anlise. Normalmente do mtodo depende a ecincia do
detector, enquanto que da escolha das variveis depende o sucesso na deteco de classe
especcas de ataques. Este trabalho tem como foco principal o mtodo de anlise no
qual a questo do desempenho computacional recebe ateno especial. Foge do escopo
do trabalho a investigao de quais variveis so adequadas para a deteco de classes de
ataques especcos. Neste trabalho as variveis so escolhidas e extradas diretamente do
trfego de rede de forma semelhante ao trabalho em (DAINOTTI; PESCAPE; VENTRE,
2006).
Dentre os mtodos de deteco presentes na literatura, os mtodos derivados da An-
lise de Sinais, como a Transformada Wavelet, possuem melhor desempenho computa-
cional comparando-se com os mtodos baseados em conhecimento e aprendizagem de
mquina (GARCA-TEODORO et al., 2009). Trata-se especicamente, neste trabalho,
da deteco de anomalias de rede usando a Transformada Wavelet Discreta.
O segundo captulo apresenta uma reviso bibliogrca sobre os Sistemas Detectores
de Intruses de Rede. Trabalhos anteriores e relacionados so discutidos neste captulo.
O terceiro captulo oferece uma descrio da teoria matemtica referente a Transfor-
mada Wavelet Discreta e a algumas tcnicas de truncamento da srie de dados. A Trans-
formada Wavelet Discreta usada, neste trabalho, no mecanismo de anlise dos dados de
rede para a deteco de anomalias.
O quarto captulo apresenta o mecanismo de deteco de anomalias de rede proposto.
O quinto captulo apresenta as ferramentas usadas no desenvolvimento do prottipo e
a sua implementao.
O sexto captulo descreve o ambiente usado nos experimentos e os resultados alcan-
ados na pesquisa.
Por m, o stimo e ltimo captulo apresenta as concluses e sugere trabalhos futuros.
2 DETECO DE INTRUSO EM REDES DE
COMPUTADORES
A deteco de intruso uma rea de pesquisa em expanso na segurana em redes
de computadores. Com o grande crescimento da interconexo de computadores em todo
o mundo, vericado um consequente aumento nos tipos e no nmero de ataques a esses
sistemas, gerando uma complexidade muito elevada para a capacidade dos tradicionais
mecanismos de preveno. Para a maioria das aplicaes atuais, praticamente invivel
a simples utilizao de mecanismos que diminuam a probabilidade de eventuais ataques.
Um ataque, em casos extremos, pode causar a interrupo total de um servio ou deix-lo
extremamente lento. O processo de auditoria e posterior restaurao manual, normal-
mente, lento e oneroso. Isso justica o estudo e desenvolvimento de mecanismos mais
ecientes que a simples preveno. Neste captulo apresentada uma reviso bibliogr-
ca acerca da deteco de intruso em redes de computadores abordando sua classicao
e sistemas mais usados.
Neste Captulo feita uma reviso bibliogrca a cerca dos sistemas e abordagens de
deteco de intruso usados em redes de computadores.
Na Seo 2.1 sero descritas algumas caractersticas do trfego de rede padro e a sua
implicao na deteco de anomalias.
Na Seo 2.2 sero descritos os Sistemas Detectores de Intruso, apresentada uma
classicao quanto a localizao e abordagem e discutido algumas vantagens e desvan-
tagens de cada abordagem.
Na Seo 2.3 sero descritas algumas tcnicas usadas na deteco de intruses de rede
baseadas em anomalias, organizando-as conforme a forma de coleta de dados, manipula-
o e identicao de anomalias.
Na Seo 2.4 sero apresentados alguns trabalhos na rea que usaram wavelets na
deteco de anomalias.
Por m na Seo 2.5 sero discutidos os pontos principais do Captulo.
25
2.1 Caractersticas do Trfego de rede
O trfego de rede corresponde a sequncia de mensagens (pacotes) trocados entre
diferentes dispositivos de rede. Padro ou anmalo, o trfego de rede naturalmente
irregular, variando sua intensidade e forma durante decorrer do tempo. A irregularidade
do trfego de rede diculta a anlise e deteco de anomalias. Como caracterstica, o
trfego de rede possui complexas correlaes temporais, caracterizadas por Dependncias
de Curta Durao (SRD - Short-Range Dependence), Dependncias de Longa Durao
ou longo alcance (LRD - Long-Range Dependence) e auto-similaridade (LELAND et al.,
1994).
Inicialmente tratado por (LELAND et al., 1994), e mais recentemente por vrios ou-
tros (SCHERRER et al., 2007) (BORGNAT et al., 2008), o trfego de rede foi explicado
com dependncias de longa durao (LRD) e auto-similaridade. Para o entendimento
da LRD necessrio a introduo da Funo de Autocorrelao (ACF - Autocorrelation
Function) (WEISSTEIN, 2010). A Funo de Autocorrelao r(), para uma srie (vetor)
y, denida como:
r() =
n
t=+1
(y[t] )(y[t ] )
n
t=1
(y[t] )
2
, (2.1)
sendo o atraso em relao ao tempo e , o valor mdio da srie:
=
1
n
n
t=1
y[t] . (2.2)
A Funo de Autocorrelao mede a relao que um elemento da srie tem com outro.
Normalmente a funo avaliada para diferentes valores de e seu valor est compreen-
dido no intervalo [1, 1]. Um valor negativo (r() < 0) para a Funo de Autocorrelao
implica em uma relao inversa, um valor positivo (r() > 0) implica em uma relao
direta e quando a funo igual a zero (r() = 0) tem-se relao nula ou independncia
estatstica. ALRDsignica que pontos distantes da srie possuemalto grau de correlao.
Matematicamente, a LRD expressada como (LELAND et al., 1994):
r()
quando , 0 < < 1,
r() , (2.3)
sendo o atraso em relao ao tempo. A Expresso (2.3) signica que a Funo de
Autocorrelao r() decai hiperbolicamente, ao invs de exponencialmente, conforme
aumenta, implicado que a funo no somvel (dependncia de longa durao, LRD).
Por outro lado, na dependncia de curta durao (SRD):
26
r()
quando , 0 < < 1,
r() < , (2.4)

a Funo de Autocorrelao r() decresce exponencialmente, ou seja, a funo somvel.
A Funo de Autocorrelao (Funo (2.1)) numa srie temporal SRD decai expo-
nencialmente (Expresso (2.4)) e numa uma srie temporal LRD decai hiperbolicamente
(Expresso (2.3)) (LELAND et al., 1994). A presena de LRD em uma srie temporal de
trfego de rede, diculta a anlise estatstica, pois pontos distantes no tempo esto forte-
mente correlacionados, sendo necessrio muitos pontos para a anlise. Quando poucos
pontos esto disponveis o erro grande (FARRAPOSO, 2009).
O trfego de rede exibe uma mistura de SRD e LRD, ou seja, a ACF comporta-se
semelhante a um processo LRD em escalas longas de tempo e como SRD em escalas
pequenas de tempo (SCHERRER et al., 2007). Outras caractersticas do trfego de rede,
que esto relacionadas com a presena de LRD, so auto-similaridade (self similarity) e a
distribuio de probabilidade no normal (no Gaussiana) dos valores das amostragens.
Embora a LRD e a Auto-similaridade sejam conceitos matemticos distintos e nem
sempre relacionados, no contexto de anlise de trfego de rede, ambos so tratados como
relacionados e muitas vezes de forma indiferente. Uma forma de denir a Auto-similaridade
como (LELAND et al., 1994):
r
(m)
() r() quando m , (2.5)
sendo (m) o nvel de agregao (escala de tempo) da srie. A Expresso (2.5) signica
que os valores da Funo de Autocorrelao (Funo (2.1)) r
(m)
() tendem a se manterem
inalterados, independente do nvel de agregao da srie (m). A propriedade da Auto-
similaridade do trfego de rede melhor explicada gracamente, conforme a Figura 2.1.
Na Figura 2.1, em(LELANDet al., 1994), apresentada uma prova grca da existn-
cia de auto-similaridade do trfego de rede emdiferentes nveis de agregao. Considerando-
se diferentes nveis de agregao (escala de tempo), 10 s, 1 s, 0, 1 s e 0, 01, o trfego de
rede (pacotes por unidade de tempo), na coluna da esquerda, semelhante em sua forma
em todos os nveis de agregao, no alterando a sua variabilidade (presena de picos).
Em contraste o trfego gerado sinteticamente pelo modelo Poisson, na coluna da direita,
torna-se mais suave em nveis de agregao mais largos.
27
Figura 2.1: Prova grca da auto-similaridade do trfego de rede. O trfego de rede (pa-
cotes por unidade de tempo), coluna da esquerda, possui forma semelhante independente
do nvel de agregao (escala de tempo), em contraste com o trfego sinttico, da direita.
Fonte: (LELAND et al., 1994).
Embora a LRD e a Auto-similaridade sejam os dois maiores conceitos nos estudos
do trfego de rede, ambos so difceis de se obter e trabalhar diretamente. O trfego de
rede no estacionrio, o que signica que a sua forma ou estrutura varia conforme o
tempo (FARRAPOSO, 2009). A caracterizao do trfego de rede padro uma tarefa
difcil.
2.2 Sistemas Detectores de Intruso
Deteco de Intruso so tcnicas usadas para deteco de ataques e intruses a um
computador ou rede de computadores. A partir do trabalho inicial de (DENNING, 1987),
que props um Sistema de Deteco de Intruso (SDI), vrios outros sistemas foram cri-
ados e diversos mtodos de deteco foram desenvolvidos. Um SDI (KIZZA, 2005)
(NORTHCUTT; NOVAK, 2002) uma ferramenta usada para detectar intruses e ata-
ques a um sistema computacional. O SDI usa para a deteco as amostras coletadas do
sistema monitorado e, ao mesmo tempo, um mtodo de anlise usado para identicar
intruses.
Denio 2.2.1. Uma Intruso qualquer tentativa ilegal e deliberada, bem sucedida ou
28
no, de manipulao, quebra ou perturbao do funcionamento de um sistema (KIZZA,
2005).
Algumas vezes so feitas distines entre os termos Intruso e Ataque. Enquanto
Ataque refere-se tentativa de perturbao de um sistema, Intruso representa um ataque
que bem sucedido. Para este trabalho o termo Ataque mais adequado, de acordo com
a denio, porm algumas vezes ambos os termos so usados sem distino.
O processo de deteco de ataques, realizado por um SDI, compreende normalmente
trs atividades fundamentais (NORTHCUTT; NOVAK, 2002): Coleta, Anlise e Res-
posta.
A Coleta corresponde a obteno dos dados do sistema monitorado. A Coleta de
informaes pode ser feita diretamente ou por meio de uma ferramenta de software ou
hardware chamado Coletor. A Fonte de Informao costuma ser um computador, uma
rede ou um segmento de rede.
A Anlise consiste no processamento dos dados coletados procurando identicar a
ocorrncia de uma Intruso. H duas abordagens principais diferentes para a anlise dos
dados, a abordagem baseada em assinaturas e a abordagem baseada em anomalias, com
diferentes mtodos em cada abordagem, como sero vistas adiante.
A Resposta o conjunto de aes que o SDI realiza quando detecta uma intruso.
Como ao tpica tem-se a gerao de Alarmes e relatrios, mas o SDI tambm pode ser
programado para fazer uma interveno automatizada no sistema em caso de Intruso.
Na anlise dos dados, deteco e gerao de alarmes por um SDI podem ocorrer as
seguintes situaes: Verdadeiro Positivo, Falso Positivo, Verdadeiro Negativo ou Falso
Negativo.
Denio 2.2.2. Um Verdadeiro Positivo (VP) um alarme verdadeiro, gerado como
resposta pelo SDI a uma intruso.
Denio 2.2.3. Um Falso Positivo (FP) um falso alarme, gerado pelo SDI a um evento
no malicioso.
Denio 2.2.4. Um Verdadeiro Negativo (VN) ocorre quando corretamente no gerado
alarme a um evento no malicioso.
Denio 2.2.5. Um Falso Negativo (FN) ocorre quando no gerado alarme, porm h
uma intruso.
29
A quantidade de VP, FP, VN e FN usada na avaliao de desempenho na deteco de
intruses por um SDI, sendo que nmeros reduzidos de FP e FN so considerados dese-
jveis. Falsos Positivos inuenciam mais que Falsos Negativos a experincia do usurio
a um SDI. Enquanto que indesejvel que alguns ataques passem despercebidos, por
outro lado, um sistema que frequentemente emite falsos alarmes acaba por ser ignorado
(BOLZONI, 2009).
O SDI pode ser classicado, conforme a fonte de informao, em duas categorias
(NORTHCUTT; NOVAK, 2002): Sistemas Detectores de Intruso baseados em Host
(SDIH) e Sistemas Detectores de Intruso de Rede (SDIR).
Um SDIH coleta e analisa informaes relativas a um host, como quantidade de re-
cursos (memria, processamento, disco) utilizada, nmero de processos, variveis de am-
biente, etc. necessria, para o funcionamento de um SDIH, a instalao do coletor no
host a ser analisado, o analisador pode estar na mesma mquina ou em outro computador
da rede.
J um SDIR utiliza para anlise informaes coletadas em uma rede de computadores,
como volume de trfego, nmero de conexes, uxos, pacotes perdidos, etc. preciso
ter um coletor acoplado a uma rede, capturando os pacotes que passarem por ela, ou
outros equipamentos capazes de coletarem informaes de trfego de rede. A coleta de
informaes internas de um host dicultada ou no desejvel em alguns ambientes, por
razes de segurana e privacidade individuais, este trabalho, por isso, preocupa-se em
discutir o desenvolvimento de SDIR.
Tambm, quanto a forma de analisar os dados, h duas abordagens principais que
podem ser usadas nos SDI em geral, bem como em um SDIR: uma baseada em conheci-
mento, ou assinaturas e outra baseada em comportamento, ou anomalias.
2.2.1 Sistemas Detectores de Intruso baseados em Host
Sistemas Detectores de Intruso baseados em Host (SDIH) so ferramentas usadas
para detectar atividades maliciosas emum nico computador (KIZZA, 2005). Um SDIH
desenvolvido para um nico computador e usa um software que monitora as atividades do
Sistema Operacional e dos programas que rodam sobre o sistema, como acesso a arquivos,
chamadas de sistema, e logs do sistema. Quando h uma alterao em um arquivo ou
parmetro monitorado, o SDIH compara o evento com as assinaturas de ataques pr-
denidas e, caso haja uma correspondncia, o SDIH sinaliza o evento como ilegal. O
SDIH tambm pode ser usado para monitorar uma rede ou segmento de rede, embora este
uso apresenta alguns problemas, como o fato de s ser possvel analisar o trfego de rede
30
que passa pelo computador.
ADeteco de Intruso baseada emHost apresenta algumas vantagens (KIZZA, 2005):
Capacidade de vericar o sucesso ou falha de um ataque rapidamente pela anlise
de logs do evento. Um SDIH possui informaes mais precisas sobre um evento
e menos propensa a Falsos Positivos. Neste caso o SDIH pode ser usado como
complemento de um SDIR para vericao do sistema;
Monitorao em baixo nvel. Pelo fato de monitorar um host, um SDIH, capaz de
analisar atividades de baixo nvel, como acesso a arquivos, mudanas nas permis-
ses de um arquivo, execuo de arquivos e tentativas de mudanas de privilgios.
Muitos ataques so to discretos que apenas um SDIH capaz de detectar;
Deteco quase em tempo real. O SDIH tem a capacidade de detectar eventos no
host rapidamente e alertar o administrador;
Capacidade de analisar trfego criptografado. Um SDIH pode acessar as informa-
es antes e aps a encriptao;
Custo reduzido. No necessrio hardware dedicado ou adicional para a instalao
de um SDIH.
O grande problema com o uso de SDIH o processamento extra necessrio apenas
para para analisar os dados coletados no computador. Em alguns casos esta sobrecarga
pode comprometer o desempenho de todo o sistema computacional e inviabilizar a detec-
o. Os SDIH ainda apresentam outras desvantagens (KIZZA, 2005):
Viso limitada. Um SDIH possui uma viso limitada da rede;
Sujeito a fraudes. Pelo fato de estarem mais perto do usurio os SDIH so mais
sujeitos a fraudes.
2.2.2 Sistemas Detectores de Intruso de Rede
Os Sistemas Detectores de Intruso de Rede (SDIR) (KIZZA, 2005) so SDI usados
para monitorar toda uma rede, com o objetivo de detectar anomalias, ataques ou aes
ilegais. Os SDIR usam para anlise informaes coletadas de uma rede, como volume de
trfego, nmero de conexes, uxos e pacotes perdidos. preciso ter um coletor acoplado
a uma rede, capturando os pacotes que passarem por ela, ou outros equipamentos capazes
de coletarem informaes de trfego de rede. Um SDIR constitudo, normalmente, por
31
alguns subsistemas (KIZZA, 2005): Coletor, Analisador, Banco de Dados, Noticador,
Atuador e Monitor.
O Coletor um software que roda em uma mquina dedicada e usa um sensor ligado
a uma fonte de informao, como uma rede ou um segmento de rede. O sensor pode estar
em equipamento de rede ou computador ligado a rede. Normalmente usa-se algum hard-
ware de rede em modo promscuo capturando todos os pacotes que passam pela rede
independentemente da origem ou destino. A biblioteca LIBPCAP (TCPDUMP, 1998) em
conjunto com uma interface de rede em modo promscuo tm sido amplamente usados
(HUANG; THAREJA; SHIN, 2006) (S SILVA, 2008). Noutros trabalhos (THOTTAN;
JI, 2003) (WU; SHAO, 2005) (ZARPELO et al., 2009) acessam-se diretamente as infor-
maes armazenadas em uma base MIB (Management Information Base) (PRESUHN,
2002), acessada via protocolo SNMP (Simple Network Management Protocol) (HAR-
RINGTON; PRESUHN; WIJNEN, 2002), em equipamentos de rede que disponibilizam
este servio. O desempenho do Coletor depende dos equipamentos de rede usados para
a coleta, principalmente em redes de grande trfego. Alguns rewalls atuam, tambm,
como coletor, armazenando informaes para um SDI (NORTHCUTT; NOVAK, 2002, p.
273).
O Analisador verica os dados coletados buscando por eventos que indiquem uma
intruso ocorrida ou que esteja ocorrendo. H diferentes abordagens para a anlise dos
dados, como a baseada em assinaturas e a baseada em anomalias, com vrios mtodos
diferentes, como mtodos estatsticos, aprendizagem de mquina e baseados em conheci-
mento (GARCA-TEODORO et al., 2009).
O Banco de Dados o repositrio de informaes do SDI, onde so guardadas infor-
maes sobre o sistema monitorado e os eventos suspeitos. As informaes guardadas no
Banco de Dados dependem do mtodo de deteco usado e da necessidade de se manter
um histrico do sistema.
O sistema Noticador responsvel pelo envio de alertas ao administrador do sis-
tema. A noticao pode ser um alerta na tela de um monitor, um aviso sonoro ou uma
mensagem eletrnica. Alertas frequentes, com vrios Falsos Positivos, so prejudiciais
pois banalizam a deteco e acabam desacreditando a ferramenta. O desempenho de um
SDI depende da relao entre Falsos Positivos e Falsos Negativos, ento importante que
o sistema possa ser ajustado (KIZZA, 2005).
O Atuador possui a capacidade de executar aes automatizadas conforme a Intruso
detectada. Tipicamente a resposta a um evento intrusivo a recongurao do roteador,
alterao de regras no rewall ou a desconexo de algum usurio ou servio.
32
O Monitor ou Terminal de comando tem o objetivo de ser a ligao entre o adminis-
trador e o SDI. O Monitor pode ser usado para congurar o sistema, vericar o funciona-
mento do SDI e a ocorrncia de Alarmes.
As principais vantagens de um SDIR so (KIZZA, 2005):
Habilidade de detectar ataques que SDIH no consegue porque monitora no nvel
de transporte da arquitetura de rede. Neste nvel, o SDIR pode analisar pacotes no
apenas por endereos, mas tambm por nmeros de porta. O SDIH, que monitora
pacotes em baixo nvel, pode no ser capaz de detectar alguns tipos de ataque;
Diculdade de remover evidncias. Geralmente um SDIR est em uma mquina
dedicada e protegida, o que diculta a remoo de evidncias por um atacante;
Deteco e Resposta em tempo real. Porque o SDIR est em pontos estratgicos da
rede, ele pode detectar intruses e, to rpido quanto possvel, noticar o adminis-
trador;
Habilidade de detectar mesmo ataques mal sucedidos. Muitos ataques so para-
dos por rewalls ou outros motivos, mesmo assim informaes referentes a estes
ataques so importantes ao administrador.
O principal desao no desenvolvimento de um SDIR escolher um mtodo eciente
que identique uma intruso de maneira correta sem gerar um nmero excessivo de falsas
deteces. Os SDIR apresentam algumas desvantagens (KIZZA, 2005):
Pontos cegos. Normalmente os sensores de um SDIR so colocados nas bordas da
rede, com isso, algumas vezes alguns segmentos da rede no so vistos pelo SDIR;
Informaes criptografadas. O SDIR no consegue analisar trfego de rede cripto-
grafado, porm, algumas vezes possvel analisar as informaes dos cabealhos
dos pacotes.
Como exemplos de SDIR mais conhecidos tem-se o Bro
1
(BRO, 2009) e o Snort
2
(SNORT, 2009), ambos disponibilizados como software livre. Tanto o Bro quanto o Snort
so baseados em assinaturas que por meio de ferramentas so compatveis entre si. H
ainda plugins
3
, em ambos os sistemas, para a incluso da capacidade de deteco baseada
em anomalias.
1
Disponvel em: http://www.bro-ids.org/
2
Disponvel em: http://www.snort.org/
3
Software que adiciona alguma funcionalidade a um programa.
33
2.2.3 Deteco de Intruses de Rede baseada em assinaturas
Os SDIR baseados em assinaturas (KIZZA, 2005), como o (BRO, 2009) e o (SNORT,
2009), comparam os dados coletados da rede com uma base de dados de assinaturas de
ataques conhecidos ou regras pr-denidas e quando os eventos analisados so compat-
veis com alguma das assinaturas da base de dados um alarme disparado. Novas formas
de ataques ou variaes de ataques conhecidos surgem constantemente, por isso, para o
bom funcionamento de um SDIR baseado em assinaturas, necessrio manter a base de
assinaturas de ataques atualizada. Porm, mesmo com uma base de assinaturas atuali-
zada, tais SDIR tm diculdade em detectar ataques desconhecidos, ataques mutantes ou
camuados. Os SDIR baseados em assinaturas so, portanto, bastante precisos em suas
deteces, apresentando baixo nmero de falsos positivos, porm, devido a sua dicul-
dade em detectar ataques novos, podem apresentar um grande nmero de falsos negativos,
o que pode representar uma brecha de segurana.
Resumidamente, as desvantagens da abordagem de Deteco de Intruses baseada em
assinaturas (KIZZA, 2005):
O sistema no capaz de detectar ataques desconhecidos, ou seja, que no possuam
uma assinatura arquivada;
O sistema no capaz de prever e detectar novos ataques.
2.2.4 Deteco de Intruses de Rede baseada em anomalias
A Deteco de Intruso usando a abordagem baseada em Anomalias apoia-se na ideia
que um ataque gera um desvio do comportamento padro do sistema (DENNING, 1987)
(KRUEGEL; VIGNA, 2003). Assume-se que a atividade maliciosa difere do compor-
tamento padro do sistema e que esta diferena pode ser expressada quantitativamente
(KRUEGEL; VIGNA, 2003). Os SDIR baseados em anomalias (GARCA-TEODORO
et al., 2009) (KRUEGEL; VIGNA, 2003) (THOTTAN; JI, 2003), SDIR-A, constroem um
perl do comportamento padro da rede com base em informaes do histrico, quando
o comportamento observado desvia-se signicativamente deste perl, ou seja, uma ano-
malia detectada, um alarme disparado. Os SDIR-A so conhecidos tambm como
Sistemas Detectores de Anomalias de Rede (PLONKA; BARFORD, 2009).
Denio 2.2.6. Uma Anomalia um evento que causa um desvio (alterao) em relao
ao perl (padro) do sistema.
34
Assume-se que uma Anomalia indicativo de um ataque. De um modo amplo, uma
Anomalia de rede pode ocorrer devido a um Ataque, falha de equipamento, problemas de
congurao, sobrecarga ou uso abusivo ou inadequado de algum servio ou recurso da
rede. Embora o foco principal de um SDIR seja a deteco de Ataques, no caso de um
SDIR baseado em anomalias, a possibilidade de deteco de outras anomalias de rede
interessante. A Deteco de Anomalias a tarefa de determinar o que normal e esperado
para um sistema e encontrar ou diferenciar as anomalias.
Pelo fato de buscar por comportamentos anmalos, um SDIR baseado em anoma-
lias capaz de detectar ataques sem seu conhecimento prvio, sendo uma alternativa a
abordagem baseada em assinaturas. O trfego de rede, de modo geral, apresenta como
caracterstica alta variabilidade, dicultando a construo de um perl para a rede e a de-
nio de intervalos conveis de variao. Em algumas situaes, mudanas do padro
de trfego de uma rede podem ser erroneamente identicadas, pelo SDIR, como ind-
cio de um ataque ou falha, gerando um falso alarme. Os SDIR baseado em anomalias
so capazes de detectar ataques desconhecidos, no entanto, uma das limitaes ainda a
ocorrncia de um grande nmero de falsos positivos.
Uma das diculdades de SDIR baseados em anomalias est em construir um perl da
rede devido a algumas caractersticas especcas do trfego de rede. As caractersticas
do trfego de rede, de modo geral, foram estudadas em alguns trabalhos (ROHANI et al.,
2008) (STOEV et al., 2005) (SCHERRER et al., 2007) que apontam que algumas vari-
veis descritivas, como nmero de pacotes ou tamanho dos arquivos transmitidos, apresen-
tam distribuio de probabilidade com cauda pesada, ou seja com decaimento mais lento
que a distribuio normal. Distribuio de probabilidade de cauda longa nas variveis
do trfego de rede normalmente so devido principalmente a dependncia de longa du-
rao (LRD). A LRD, em uma varivel, signica que a funo de auto-correlao decai
lentamente. A auto-similaridade ou caracterstica fractal est relacionada a dependncia
de longa durao e refere-se caracterstica de uma varivel em possuir a mesma distri-
buio de probabilidade em qualquer nvel de agregao ou resoluo. O trfego de rede
muito varivel, sendo constitudo basicamente por picos, e devido as caractersticas de
dependncias de longa durao, auto-similaridade e distribuio de probabilidade com
cauda pesada, estatisticamente difcil identicar valores extremos e denir intervalos de
conana.
Resumidamente, as desvantagens da abordagem de Deteco de Intruses baseada em
anomalias (KIZZA, 2005):
35
Falsos Positivos: Muitas atividades anmalas, porm no intrusivas, so equivoca-
damente sinalizadas como Intruses;
Falsos Negativos: Intruses podem no ser detectadas, caso no produzam alguma
anomalia perceptvel;
So computacionalmente complexos, pela necessidade de criao e atualizao de
um perl.
Abordagens de deteco por assinaturas podem ser adequadas para casos distintos de
formas de ataques, enquanto que a abordagem baseada por anomalias mais indicada
para a deteco de ataques desconhecidos. Levando-se em conta a grande variedade de
ataques existentes e o rpido surgimento de novos ataques, possvel o uso de um SDI
hbrido que incorpore os dois mtodos, unindo as vantagens de ambos.
Alguns projetos de SDIR baseados em anomalias conhecidos so: o EMERALD
(Event Monitoring Enabling Responses to Anomalous Live Disturbances)
4
, o Prelude
IDS
5
, o POLVO-IIDS (Sistema de Deteco de Intruso Inteligente Baseado em Anoma-
lias) (MAFRA et al., 2008). A maioria usa algum mtodo de aprendizagem de mquina
(GARCA-TEODORO et al., 2009).
2.3 Deteco de anomalias de rede
A deteco de anomalias em redes de computadores uma rea de estudo bastante
ativa e vrias tcnicas so usadas. A classicao das tcnicas de deteco de anomalias
de rede, presentes na literatura, uma tarefa difcil devido a diversidade e ao desenvol-
vimento constante de novas tcnicas. Em (GARCA-TEODORO et al., 2009), o autor
classicou os mtodos de deteco de anomalias de rede em mtodos baseados: Co-
nhecimento, Aprendizagem de Mquina e Anlise Estatstica. Neste trabalho usa-se a
classicao conforme:
Conhecimento: (THOTTAN; JI, 2003) Mquina de estados nitos; Sistemas espe-
cialistas ou baseado em regras; Busca por padres (Pattern Matching);
Aprendizagem de Mquina: Redes bayesianas (LIU et al., 2008); Cadeias de
Markov (GARCA-TEODORO et al., 2009); Redes Neurais (MAFRA et al., 2008);
Lgica difusa (Fuzzy) (YAO; ZHITANG; SHUYU, 2006); Algortimos genticos
4
http://www.csl.sri.com/projects/emerald/
5
http://www.prelude-technologies.com/en/welcome/index.html
36
(SELVAKANI; RAJESH, 2007); Algortimos de agrupamento (Clustering) (LI;
FANG, 2007); Sistemas imunolgicos articiais (GUANGMIN, 2008);
Anlise de Sinais: Anlise Estatstica (SAMAAN; KARMOUCH, 2008) ltros
de Kalman (SOULE; SALAMATIAN; TAFT, 2005); CUSUM (CUmulative SUM)
(THOTTAN; JI, 2003); Sries Temporais (WU; SHAO, 2005); Wavelets (HUANG;
THAREJA; SHIN, 2006);
Em relao a classicao adotada em (GARCA-TEODORO et al., 2009), neste tra-
balho acrescentou-se, na classicao dos mtodos de deteco, as tcnicas derivadas
Anlise de Sinais, separando-se algumas das tcnicas de Anlise Estatstica. Na Anlise
de Sinais so usadas tcnicas mais elaboradas para a modelagem dos dados e criao de
um perl que as baseadas na Anlise Estatstica bsica.
Os mtodos baseados em Conhecimento, ou baseados em regras, fazem uso de um
conjunto de regras e parmetros elaborados e classicados por um especialista, usando
algumformalismo, como mquina de estados nitos por exemplo. Tais mtodos so muito
robustos, apresentando poucos falsos positivos, e exveis. A principal desvantagem, no
entanto, est na diculdade e demora em se obter o conhecimento de qualidade necessrio
(GARCA-TEODORO et al., 2009).
A abordagem de Aprendizagem de Mquina baseia-se no estabelecimento de um mo-
delo implcito ou explcito que permite que padres sejam analisados e classicados. So
usadas diversas tcnicas, como Redes Neurais e Algortimos de agrupamento, com dife-
rentes propriedades. Contudo, a principal caracterstica da abordagem est na necessidade
de uma fase de treinamento com dados rotulados para a diferenciao do comportamento
aceitvel do no aceitvel pelo sistema. As principais vantagens destes mtodos esto na
exibilidade, adaptabilidade e capacidade de capturar interdependncias desconhecidas
nos dados. Porm esta abordagem depende da determinao (rotulagem) do comporta-
mento aceitvel pelo sistema e os mtodos empregados demandam muito de recursos
computacionais (GARCA-TEODORO et al., 2009).
Mtodos derivados da Anlise de Sinais tm sido propostos para a deteco de ano-
malias de rede (BARFORD et al., 2002). Nos mtodos baseados na Anlise de Sinais, um
perl criado representando o comportamento passado da rede. O perl usando mtricas
de trfego, como nmero de pacotes por protocolo, nmero de conexes e outras. Um
alerta de anomalia disparado quando o comportamento atual da rede difere signicati-
vamente do encontrado no perl, ultrapassando algum limite (threshold) estabelecido. A
principal vantagem destes mtodos est em no precisar de algum conhecimento prede-
37
nido do comportamento padro da rede, pois so capazes de se adaptar ao comportamento
da rede. A principal diculdade, no entanto, est na denio dos parmetros, o que in-
uencia na taxa de deteces e de falsos positivos.
Tendo como a vantagem no necessitar de conhecimento predenido ou de uma etapa
de treinamento, as abordagens baseadas na Anlise de Sinais tornam-se interessantes para
uso na deteco de anomalias devido a variabilidade do trfego de rede. Neste sentido,
a Transformada Wavelet, mtodo de Anlise de Sinais, demonstrou aplicabilidade para a
anlise do trfego e deteco de anomalias de rede (BARFORD et al., 2002) (THOTTAN;
JI, 2003) (HUANG; THAREJA; SHIN, 2006) (GAO et al., 2006) (LU; TAVALLAEE;
GHORBANI, 2008) (KIM; REDDY, 2008) por permitir a anlise em diferentes escalas de
tempo (DONOHO; JOHNSTONE, 1995). A maioria dos mtodos baseados na Anlise de
Sinais para deteco de anomalias de rede, presentes na literatura, apresenta ao menos trs
etapas diferentes: Seleo de Variveis, Transformao dos dados e Gerao de Alarmes.
2.3.1 Seleo de variveis
A deteco de anomalias uma atividade complexa. A seleo do conjunto de vari-
veis usadas pelo processo de anlise de dados inuencia na capacidade de deteco do SDI
e o nmero de variveis usadas impacta no desempenho computacional da ferramenta. No
entanto, a seleo de variveis normalmente guiada por critrios empricos (ABDOL-
LAH et al., 2008). As variveis selecionadas dependem tambm do tipo de SDI usado e
dos tipos de ataques ou anomalias de interesse, por exemplo para um SDIR normalmente
se est interessado nos endereos de origem e destino, portas e protocolos dos pacotes
de rede. Quanto aos dados coletados em uma rede, um SDIR pode utilizar os dados do
payload do pacote, como em (KRUEGEL; VIGNA, 2003), ou apenas as informaes do
header, como em (LONGCHUPOLE; MANEERAT; VARAKULSIRIPUNTH, 2009) e
(KIM; REDDY, 2008).
A seleo de variveis consiste na escolha das caractersticas (ou descritores) de rede
a serem utilizadas para a anlise. Normalmente faz-se a distino entre as caractersticas
referentes a uma nica conexo TCP daquelas referentes a mltiplas conexes. Conforme
(ONUT; GHORBANI, 2007) as caractersticas do trfego de rede so classicadas como
bsicas e derivadas:
Caractersticas Bsicas: so caractersticas que representam a uma nica conexo
TCP/IP. Estas caractersticas so extradas diretamente dos pacotes de trfego de
rede. Diferentes nomes tambmso usados para nomear estas caractersticas, como:
38
Caractersticas Bsicas; Atributos Essenciais; Caractersticas Bsicas de uma co-
nexo TCP; Caractersticas TCP Bsicas. Ainda pode incluir as Caractersticas
de Fluxo, que engloba tambm os protocolos no orientados a conexo (exemplo:
UDP, ICMP).
Caractersticas Derivadas: representammltiplas conexes TCP/IP ao mesmo tempo.
Tambm so conhecidas como Caractersticas de Trfego.
Ainda segundo (ONUT; GHORBANI, 2007), as Caractersticas Derivadas destinam-
se a encontrar similaridades entre diferentes conexes de rede. Para a coleta dessas ca-
ractersticas podem ser usadas dois tipos de janelas de observao. O primeiro tipo
baseado em uma janela com intervalo de tempo (por exemplo, 5 segundos), enquanto que
no segundo tipo usada uma janela com intervalo de conexes (por exemplo, as ltimas
100 conexes). O uso desses dois tipos diferentes de janelas separa as Caractersticas De-
rivadas em: Caractersticas baseados no Tempo e Caractersticas baseadas em Conexes:
Baseadas no tempo: so computadas com respeito a um determinado intervalo de
tempo passado. Esse tipo de caractersticas so boas para a deteco de ataques que
geram anomalias de volume de trfego como ataques do tipo DDoS.
Baseadas em conexo: so computadas considerando-se o nmero de conexes pas-
sadas. Essas caractersticas so usadas apenas com protocolos de rede orientados
a conexo, como TCP, e so boas na deteco de ataques que aconteam em um
grande intervalo de tempo.
Devido a diversidade protocolos e servios de rede existentes, a quantidade de ca-
ractersticas possveis imensa. Embora seja possvel no desenvolvimento de um SDI
considerar um nmero grande de caractersticas de rede para a deteco de anomalias,
tem-se restries de desempenho computacional. Portanto as caractersticas de rede so
escolhidas conforme a necessidade do SDI.
Alguns trabalhos recentes (ZAMAN; KARRAY, 2009) (GHALI, 2009) (CHOU; YEN;
LUO, 2008) demonstram preocupao com a escolha das caractersticas de rede por um
SDI e buscam por formas automatizadas de seleo. Em (ZAMAN; KARRAY, 2009),
o autor usou uma tcnica de aprendizagem de mquina conhecida como Support Vector
Machines(SVM) para a classicao e seleo das caractersticas de rede. Em (GHALI,
2009) props um algortimo baseado em Rede Neural para a seleo de variveis. J
em (CHOU; YEN; LUO, 2008), o autor props um algortimo baseado em mtodos de
39
agrupamento (clustering), mais especicamente k-nearest neighbor (k-NN) e lgica di-
fusa (fuzzy). Todos os trabalhos citados zeram uso da base de dados do DARPA KDD
99 (HETTICH; BAY, 1999) e demonstraram uma reduo do nmero de caractersticas
consideradas importantes para deteco de ataques em um SDI.
Uma varivel (contador) armazena uma amostragem de determinada caracterstica de
rede. O conjunto de amostragens, ordenadas no tempo, de uma varivel forma uma srie
temporal, que usada pela maioria dos mtodos baseados na anlise de sinais. Neste caso
fala-se especicamente das caractersticas de rede baseadas no tempo. Neste texto ainda,
faz-se uma diferenciao entre Variveis Primrias e Variveis Derivadas.
As Variveis Primrias relacionam-se a caractersticas extradas diretamente dos pa-
cotes TCP/IP computadas conforme o intervalo de tempo pr-determinado, como por
exemplo: nmero de pacotes trafegados; tamanho mdio dos pacotes; quantidade em by-
tes de dados trafegados; nmero de pacotes referentes a determinado protocolo, como
TCP, UDP ou ICMP; nmero de pacotes por porta ou servio. J, as Variveis Derivadas
so composies ou relaes de duas ou mais Variveis Primrias, como por exemplo: a
diferena entre pacotes SYN e FIN; ou a relao entre diferente portas ou servios.
2.3.2 Transformao dos dados
A transformao dos dados consiste na representao matemtica das sries de dados
de rede, de modo a remover tendncias e tornar evidente as singularidades. Na Transfor-
mada Wavelet, as sries de dados, no domnio do tempo, so representados no domnio do
tempo e escala (DONOHO; JOHNSTONE, 1995). Algumas abordagens utilizam apenas
a Transformada Wavelet, outras a utilizam em conjunto com outros modelos matemticos
(LU; TAVALLAEE; GHORBANI, 2008).
Por ser o foco principal deste trabalho, os algoritmos baseados em wavelets para a
anlise dos dados presentes na literatura so tratados juntamente com os trabalhos relaci-
onados na Seo 4.3.
2.3.3 Gerao de alarmes
Para que a deteco de anomalias ocorra necessrio a gerao de alarmes, ou qual-
quer outra forma de aviso ou interveno automatizada, toda vez que as medidas esta-
tsticas dos dados mais recentes afastam-se consideravelmente de um modelo de trfego
padro, construdo com base no histrico da rede. Normalmente esta anlise reali-
zada sobre os dados transformados ou resduos (LU; TAVALLAEE; GHORBANI, 2008)
e vrias mtricas estatsticas podem ser utilizadas, como mdia ou varincia (GAO et al.,
40
2006). Para acomodar variaes insignicantes, devido a algum componente estocstico
do modelo, so denidos valores de threshold, que podem ser xos (GAO et al., 2006) ou
dinmicos (KIM; REDDY, 2008).
2.4 Trabalhos relacionados
O estudo realizado neste trabalho foi motivado por um conjunto de trabalhos nos quais
wavelets foram usadas em alguma das fases da modelagem do detector de anomalias.
No trabalho de (DAINOTTI; PESCAPE; VENTRE, 2006) foi proposto um meca-
nismo de deteco de anomalias de volume de trfego de rede com o objetivo de detectar
ataques do tipo DoS. O sistema combina uma abordagem tradicional, baseado em So-
mas Cumulativas (CUSUM - CUmulative SUM) (BASSEVILLE; NIKIFOROV, 1993, p.
35) e Mdias Mveis Exponencialmente Ponderadas (EWMA - Exponentially Weighted
Moving Average) com uma nova abordagem baseada na Transformada Wavelet Continua
(TWC) e Threshold. A arquitetura baseada em dois estgios. O primeiro estgio usa
EWMA e Thresholds e destina-se a a fazer a deteco grosseira de ataques. O segundo
estgio, usa a TWC, destina-se a renao e deteco na dos ataques, para diminuir o
nmero de falsos alertas. A Wavelet Me usada foi a Morlet.
No trabalho de (GAO et al., 2006) foi proposto um detector de anomalias de rede ba-
seado na Transformada Wavelet Packet (TWP) (COIFMAN; WICKERHAUSER, 1992).
Os dados de rede so transformados utilizando-se a transformada direta wavelet packet,
com bases wavelet da famlia Daubechies, e reconstrudo a partir dos coecientes wavelet
para cada nvel da transformada. Medidas estatsticas, como mdia e varincia, foram
usadas para caracterizar uma anomalia, como a razo da mdia ou da varincia entre a
janela de deteco e a janela histrica foram mensuradas e comparadas com valores de
threshold predenidos para identicar uma anomalia.
No trabalho de (LU; TAVALLAEE; GHORBANI, 2008) foi usada uma abordagem
para deteco de anomalias de rede baseada na Transformada Wavelet e sries auto-
regressivas. No sistema proposto foram selecionadas variveis descritoras de trfego,
usando-se o modelo de agregao por uxos origem-destino. O sinal original trans-
formado usando wavelets (Transformada Wavelet discreta) e os coecientes wavelet d
j,k
aproximados usando um modelo de predio auto-regressivo do tipo ARX (AutoRegres-
sive with eXogenous input) e o resduo da predio usado para a deteco de anoma-
lias utilizado o GMM (Gaussian Mixture Model). A estratgia de deteco de anoma-
lias consiste na identicao de outliers (valor signicativamente diferente dos demais),
41
assumindo-se, que a presena destes no resduo indica a existncia de anomalias no tr-
fego da rede.
No trabalho de (KIM; REDDY, 2008) foi proposto um detector baseado na anlise da
correlao dos endereos IP de destino no trfego de sada de um roteador. A principal
diferena deste trabalho em relao aos demais , justamente, a forma como os dados so
agrupados. No primeiro estgio, as informaes nos cabealhos dos pacotes TCP/IP ou
vindos de uma base do NetFlow, como endereo IP e porta de destino, so selecionadas
e agrupadas para reduzir o volume de informao. Em seguida, num segundo estgio,
as sries so submetidas a uma Transformada Wavelet Discreta direta e posteriormente
so reconstrudos, com a Transformada Wavelet inversa, conforme a escala selecionada.
No ltimo estgio vericada a regularidade das informaes comparando-se o histrico
dos dados, por meio de thresholds. A presena de outliers no sinal considerada como
indicador de anomalias. Thresholds so estabelecidos com auxlio da desigualdade de
Chebyshev e com um intervalo de conana predenido.
2.5 Consideraes Finais
Neste Captulo foi abordado como tema o estudo dos Sistemas de Deteco de Intru-
so. Inicialmente foram descritas as caractersticas bsicas do trfego de rede e posterior-
mente foram apresentadas uma taxonomia simplicada dos SDI e uma reviso de alguns
trabalhos na rea. A discusso central deu-se em relao aos Sistemas de Deteco de
Intruses de Rede baseados em anomalias.
Um SDIR baseado em assinaturas bastante preciso, porm no se adaptam automa-
ticamente a novos ataques e no capazes de detectar ataques que no estejam presentes
no banco de assinaturas. Por outro lado, um SDIR baseado em anomalia pode detectar
ataques novos e desconhecidos, no entanto, gera bastante Falsos Positivos. A aborda-
gem baseado em anomalias pode no ser vista como substituta da abordagem baseada em
assinaturas em todos as situaes, mas como uma alternativa especialmente quando se
procura detectar ataques novos ou desconhecidos.
A deteco de anomalias em redes de computadores uma rea de pesquisa bas-
tante ativa. A Transformada Wavelet, mtodo baseado na Anlise de Sinais, demonstrou
aplicabilidade para a anlise do trfego e deteco de anomalias de rede (HUANG; THA-
REJA; SHIN, 2006) (GAO et al., 2006) (LU; TAVALLAEE; GHORBANI, 2008) (KIM;
REDDY, 2008). A Transformada Wavelet permite uma anlise do trfego de rede em
diferentes escalas de tempo.
42
Motivado por trabalhos prvios (HUANG; THAREJA; SHIN, 2006) (GAO et al.,
2006) (LU; TAVALLAEE; GHORBANI, 2008) (KIM; REDDY, 2008) que usaram a
Transformada Wavelet em alguma das fases da modelagem de trfego para a deteco
de anomalias, o trabalho desenvolvido nesta dissertao explora o uso da Transformada
Wavelet Discreta Daubechies para a anlise do trfego e o uso de Thresholds para a de-
teco de anomalias.
3 WAVELETS E THRESHOLD
Neste Captulo so apresentados os conceitos bsicos referente s funes Wavelet
ortonormais da famlia de Daubechies, suas transformadas discretas e as tcnicas de trun-
camento (threshold) dos coecientes wavelet. O objetivo apresentar uma viso geral
sobre o assunto de modo a propiciar uma base para o entendimento do mecanismo de
deteco de anomalias de rede, tema central deste trabalho. As funes Wavelet, por meio
dos algoritmos para o clculo da Transformada Wavelet so usadas no processo de an-
lise dos dados do trfego de rede. As abordagens de threshold servem para a criao de
estratgias de deteco de anomalias de rede.
Na Seo 3.1 apresentada a fundamentao matemtica das funes Wavelet, a
Transformada Wavelet Discreta e os algoritmos para o clculo.
Na Seo 3.2 so apresentadas as abordagens de threshold.
3.1 Wavelets
A literatura sobre as funes wavelets bastante extensa. A referncia clssica para a
construo da famlia de funes ortonormais o texto de Ingrid Daubechies (DAUBE-
CHIES, 1992). No entanto, esta referncia tem um enfoque bastante especco e apre-
senta os conceitos com alto rigor matemtico, essa dissertao baseia-se no texto de Ole
Mller Nielsen (NIELSEN, 1998, Cap. 2), seguindo suas denies e nomenclaturas.
Recomenda-se tambm a referncia (MALLAT, 1998), que trata das funes wavelet do
ponto de vista da Anlise de Sinais.
3.1.1 Propriedades da funo Escala e da funo Wavelet
Ao longo deste trabalho todos os sinais utilizados sero considerados como elementos
do espao vetorial L
2
(R), cujos elementos so funes de quadrado integrvel:
L
2
(R) =
_
y(t) :
_

y(t)dt <
_
. (3.1)
44
As funes Escala e Wavelet tm a propriedade de formarem uma base para o espao
vetorial L
2
(R). Ou seja, qualquer elemento deste espao pode ser decomposto como uma
combinao linear das funes Escala (t) e Wavelet (t) e suas dilataes e translaes
(DAUBECHIES, 1992).
Relao de Escala. No espao L
2
(R) as funes Escala (t) e as funes Wavelet
(t) satisfazem a seguinte relao, denominada Relao de Escala:
(t) = 2
1/2
D1
k=0
g
k
(2t k) , (3.2)
(t) = 2
1/2
D1
k=0
h
k
(2t k) , (3.3)
sendo g
k
e h
k
constante k. A Relao de Escala e signica que a funo (t) pode
ser gerada por uma combinao linear dela mesma quando dilatada (2t) e transladada
(2t 1), (2t 2), ..., (2t D 1). O parmetro D determinado de acordo com o
tipo de funo Wavelet. Os coecientes g
k
e h
k
so chamados ltros e esto associados
s funes (t) e (t) consideradas. H vrias tipos de funo Escala e para cada uma
existe uma funo Wavelet associada. Exemplos de funes Wavelet sero tratadas na
Seo 3.1.2.
As funes geradas pelas dilataes e translaes das funes (t) e (t) so denota-
das por:
j,k
(t) = 2
j/2
(2
j
t k) , (3.4)
j,k
(t) = 2
j/2
(2
j
t k) . (3.5)
O parmetro j chamado parmetro de escala ou dilatao porque dilata ou comprime
a funo Escala (t) ou a funo Wavelet (t) e k o parmetro de translao porque ele
desloca a funo (t) ou a funo (t) na escala xada.
Denota-se, ainda:
k
(t) =
0,k
(t) = (t k) , (3.6)
k
(t) =
0,k
(t) = (t k) . (3.7)
Pela relao (3.4) a funo Escala (t) forma um conjunto de novas funes
j,k
(t)
que correspondem a prpria funo dilatadas (ou encolhidas) conforme a escala j e des-
locadas conforme o parmetro k.
45
Pela relao (3.5) so geradas as funes
j,k
(t) por dilataes e deslocamentos da
(t) conforme j e k.
Cada conjunto de funes Escala (t) e Wavelet (t) e suas dilataes e translaes
satisfazem uma srie de propriedades fundamentais:
1) Energia Finita. Como ambas so elementos de L
2
(R), as funes Escala (t) e as
funes Wavelet (t) possuem energia nita:
_

[(t)[
2
dt < (3.8)
_

[(t)[
2
dt < . (3.9)
2) Suporte compacto (MALLAT, 1998). O suporte das funes Escala e Wavelet est
relacionado sua localidade. As funes (t) e (t) so localizadas no tempo, em um
intervalo limitado e fechado da reta:
supp() = supp() = [0, D 1] , (3.10)
o que signica que a funo toda nula fora de um intervalo [0, D 1].
3) A funo Escala e a funo Wavelet possuem norma igual a 1:
||
2

__

[(t)[
2
dt
_
1/2
= 1 , (3.11)
||
2

__

[(t)[
2
dt
_
1/2
= 1 . (3.12)
4) Ainda, as funes Wavelet (t) so oscilatrias (MALLAT, 1998):
_

(t)dt = 0 , (3.13)
ou seja, a integral da funo wavelet igual a zero, o que signica que o valor mdio
da funo tambm zero e, consequentemente, deve ser oscilatria. O nome Wavelet
(onda pequena) consequncia desta natureza oscilante e do suporte compacto (JANSEN,
2000).
5) As funes
j,k
(t) e
j,k
(t) possuem uma propriedade importante que ortogona-
lidade entre si:
_

j,k
(t)
j,l
(t)dt =
k,l
(3.14)
46
_

i,k
(t)
j,l
(t)dt =
i,j
k,l
(3.15)
_

j,k
(t)
j,l
(t)dt = 0, j i (3.16)
sendo i, j, k, l Z e
k,l
o Kronecker delta denido como:
k,l
=
_
0, k ,= l
1, k = l ,
o que signica as funes so mutuamente ortogonais conforme a relao para diferen-
tes escalas j e diferentes deslocamentos k.
6) Momentos Nulos
As wavelets de Daubechies, possuem todos os momentos nulos at a ordem P:
_

y
p
(t)dt = 0, y R, p = 0, ..., P 1 , (3.17)
sendo y
p
um polinmio de ordem p e P o nmero de momentos nulos da base wavelet.
O nmero de momentos nulos P da funo est relacionado com o suporte [0, D1]:
D = 2P . (3.18)
3.1.2 Exemplos de Funes Wavelet
As wavelets da famlia ortonormal de Daubechies so especicadas conforme o n-
mero de momentos nulos e, pela relao (3.18), pelo suporte. Seguindo a nomenclatura
adotada em (NIELSEN, 1998), as wavelets de Daubechies so nomeadas conforme o ta-
manho do suporte D. Assim tem-se: D2, D4, D6, D8, e assim por diante conforme a
escolha do parmetro D. A wavelet de Haar, que um caso especial da famlia, corres-
ponde a Daubechies D2 (D = 2).
Dentre as wavelets de Daubechies, a wavelet de Haar a mais simples, com apenas
um momento nulo P = 1 e suporte no intervalo [0, 1], D = 2. A funo Escala (t) para
a wavelet de Haar denida como:
(t) =
_
1, 0 t < 1
0, Caso contrrio ,
(3.19)
assim como a funo Wavelet (t) de Haar denida como:
(t) =
_
_
_
1, 0 t < 1/2
1, 1/2 t < 1
0, Caso contrrio .
(3.20)
47
Excetuando-se a wavelet de Haar, para as demais wavelets no se conhece a forma
explcita da funo (t) e (t).
Gracamente, para a wavelet de Haar, a funo (t) e a funo (t) so representadas
na Figura 3.1.
t
(t)
0
1
1
t
(t)
0
1
1
1
Figura 3.1: Funo Escala, (t), e Wavelet, (t), de Haar.
Conforme a relao (3.4), para a wavelet de Haar o conjunto de novas funes
j,k
(t)
geradas quando j = 0 so representadas na Figura 3.2.
t
0,0
(t)
0
1
1
t
0,1
(t)
0
1
1
Figura 3.2: Funes Escala de Haar quando j = 0, para k = 0 e k = 1, no intervalo [0, 1].
Em relao a funo Escala (t) (Figura 3.1, as funes
0,k
(t), escala j = 0, na Fi-
gura 3.2 esto encolhidas (metade da distncia no eixo t) e deslocadas conforme os valores
de k. A Figura 3.2 representa apenas as funes
0,k
contidas no intervalo [0, 1] embora o
conjunto de funes seja innito considerando as possibilidade de deslocamentos k para
um sinal tambm innito.
De forma anloga, pela Relao (3.5), para a wavelet de Haar, as funes
0,k
(t)
geradas quando j = 0 so representadas na Figura 3.3.
48
t
0,0
(t)
0
1
1
1
x
0,1
(x)
0
1
1
1
Figura 3.3: Funes Wavelet de Haar quando j = 0, para k = 0 e k = 1, no intervalo
[0, 1].
Outro exemplo a Wavelet Daubechies D4, que representada na Figura 3.4. A
wavelet Daubechies D4 possui dois momentos nulos (P = 2) e suporte D = 4.
Figura 3.4: Funo Escala (t) e funo Wavelet (t) Daubechies D4 (2 momentos nu-
los). Fonte: (NIELSEN, 1998)
A Figura 3.5 exemplica com algumas funes
0,k
(t) geradas quando j = 0 para a
wavelet Daubechies D4 no intervalo [0, 3]. Igualmente, as
0,k
(t) so vistas na Figura 3.6.
0,0
(t)
0,1
(t)
0,2
(t)
0,3
(t)
Figura 3.5: Funes Escala de D4 quando j = 0, para k = 0, k = 1, k = 2 e k = 3.
Fonte: (NIELSEN, 1998)
49
0,0
(t)
0,1
(t)
0,2
(t)
0,3
(t)
Figura 3.6: Funes Wavelet de D4 quando j = 0, para k = 0, k = 1, k = 2 e k = 3.
Fonte: (NIELSEN, 1998)
A wavelet Daubechies D6 possui trs momentos nulos (P = 3) e suporte D = 6,
Figura 3.7.
Figura 3.7: Funo Escala (t) e funo Wavelet (t) Daubechies D6. Fonte: (NIELSEN,
1998)
Como no se conhece a forma explcita da funo (com exceo da wavelet de Haar),
atravs das relaes de escala, relao (3.2) e relao (3.3), constroem-se de forma recur-
siva os valores das funes (t) e (t) para conjuntos de pontos didicos em escalas cada
vez mais nas. As wavelets so usadas conhecendo-se esses valores.
3.1.3 Wavelets e ltros
A relao de escala (relao (3.4)) diz que a prpria funo Escala (t) pode ser repre-
sentada como combinao linear (2t k), k Z e portanto existem g
k
R, k Z
tais que (t) =
k=
g
k
(2t k). Como a funo (t) tem suporte compacto, o
somatrio nito, com apenas um nmero nito de elementos no zero. Tem-se, ento:
(t) =
2
D1
k=0
g
k
(2t k) , (t) [0, D 1] , (3.21)
sendo g
k
= (t), (2t k)) (produto interno), que em L
2
(R) dado por:
g
k
=
_

(t)
1,l
(t)dx . (3.22)
De forma similar, tem-se:
50
(t) =
2
D1
k=0
h
k
(2t k) , (3.23)
sendo:
h
l
=
_

(x)
1,l
(x)dx . (3.24)
Os g
l
so chamados coecientes do ltro G e os h
l
so chamados coecientes do
ltro H. Nos vetores dos ltros G e H, o parmetro D um inteiro positivo par que
determina o nmero de coecientes (constantes) nos respectivos ltros g
0
, g
1
, ..., g
D1
e
h
0
, h
1
, ..., h
D1
. O parmetro D depende do suporte da wavelet especca e, pela expres-
so (3.18), do nmero de momentos nulos da funo (t).
Os valores dos coecientes dos ltros G (expresso (3.22)) e H (expresso (3.24))
so calculados atravs de um sistema de equaes que engloba todas as propriedades a
serem impostas famlia, alm de comportamentos exigidos para suas Transformadas de
Fourier. Para obter detalhes da deduo dos ltros sugere-se o livro de (DAUBECHIES,
1992). Neste trabalho, da mesma forma que na maioria das aplicaes das Wavelets, sero
usados apenas os valores dos ltros j calculados para a famlia, tambm encontrados em
(DAUBECHIES, 1992).
Os vetores dos coecientes dos ltros possuem norma unitria:
|G|
2

_
D1
l=0
[g
l
[
2
_
1/2
= 1 . (3.25)
|H|
2

_
D1
l=0
[h
l
[
2
_
1/2
= 1 (3.26)
As propriedades (3.26) e (3.25) so decorrncia de (3.11) e (3.12) respectivamente.
Alm disso os ltros so ortogonais entre si:
G, H)
D1
l=0
g
l
h
l
= 0 , (3.27)
em decorrncia de (3.16).
Os coecientes dos ltros G e H esto relacionados entre si:
h
l
= (1)
l
g
D1l
, l = 0, 1, ..., D 1 . (3.28)
A wavelet de Haar, (3.19) e (3.20), por exemplo, possui 2 coecientes (D = 2) para o
ltro G:
51
G =
_
1
2
,
1
2
_
(3.29)
e pela relao (3.28), que produz h
0
= g
1
e h
1
= g
0
, encontram-se os coecientes do
ltro H:
H =
_
1
2
,
1
2
_
. (3.30)
A wavelet Daubechies D4 possui os seguintes coecientes (D = 4) para os ltros:
G =
_
g
0
=
1 +
3
4
2
, g
1
=
3 +
3
4
2
, g
2
=
3
3
4
2
, g
3
=
1
3
4
2
_
(3.31)
e pela relao (3.28) so encontrados os coecientes do ltro H:
H = (h
0
= g
3
, h
1
= g
2
, h
2
= g
1
, h
3
= g
0
) . (3.32)
Na Tabela 3.1 so apresentados os coecientes do ltro G das funo wavelet de
Daubechies D6 juntamente com a D2 (Haar) e D4.
h
0
h
1
h
2
h
3
h
4
h
5
D2
1
2
1
2
D4
1+
3
4
2
3+
3
4
2
3
3
4
2
1
3
4
2
D6 0.332670552 0.806891509 0.459877502 -0.13501102 -0.08544127 0.03522629
Tabela 3.1: Coecientes do Filtro passa baixa G das wavelets D2, D4 e D6. Fonte:
(GOUD; BINULAL; K.P, 2009)
As wavelets por meio dos seus ltros correspondentes so usadas para analisar uma
funo em diferentes escalas. A Anlise em Multirresoluo serve como uma maneira
de representar o conceito de mudana de escalas e a representao de um sinal por meio
wavelets.
3.1.4 Anlise em multirresoluo
Uma Anlise em Multirresoluo (MRA - Multiresolution Analysis) caracterizada
por:
52
0 . . . V
1
V
0
V
+1
. . . L
2
(R) (a)
j=
V
j
= L
2
(R) ,
j=
V
j
= 0 (b)
(t k)
kZ uma base ortonormal para
V
0
(c)
y V
j
y(2.) V
j+1
(d)
(3.33)
A expresso (3.33) (a) descreve uma sequncia de espaos encaixados, tal que, em
expresso (3.33) (b), a unio de todos os espaos V
j
L
2
(R) forma o espao L
2
(R).
Quando se passa de um espao V
j
para um espao V
j+1
, informaes so perdidas, en-
quanto que quando se passa do espao V
j
para um espao V
j1
mais informaes so
conhecidas. Pela expresso (3.33) (c), o espao V
0
tem uma base ortonormal consistindo
de translaes de uma funo . Projees de uma funo y L
2
(R) so aproximaes
de y no espao V
j
. Pela expresso (3.33) (d), quando uma funo y(t) move-se de um
espao V
j
para um espao V
j+1
reescalonada por dois.
A partir da sequncia dos subespaos encaixados (expresso (3.33) (a)), dene-se W
j
como o complemento ortogonal de V
j
em V
j+1
, V
j
W
j
:
V
j
= V
j+1
W
j+1
(3.34)
sendo, no caso inicial: V
0
= V
1
W
1
.
O subespao W
j
corresponde informao complementar quando se passa do subes-
pao V
j
para V
j+1
. Aplicando-se (3.34) tem-se:
V
0
= V
J

_
1
j=J
W
j
_
= V
J
W
J
. . . W
1
. (3.35)
Qualquer funo em V
j
pode ser expressa como uma combinao linear de funes
em V
J
e W
J
, . . . , W
1
.
Pela expresso (3.33) (c), o conjunto (t k)
kZ
uma base ortonormal em V
0
e
por repetidas aplicaes de (3.33) (c) segue que o conjunto:
_
2
j/2
(2
j
t k)
_
kZ
uma base ortonormal para
V
j
. (3.36)
Similarmente para uma funo (t), o conjunto:
_
2
j/2
(2
j
t k)
_
kZ
uma base ortonormal para
W
j
. (3.37)
53
A Transformada Wavelet Discreta (TWD) a ferramenta que decompe um sinal em
diferentes componentes e possibilita o estudo de cada componente conforme sua escala
(DAUBECHIES, 1992). A TWD descreve o sinal em termos de uma forma grosseira,
mais diferentes nveis de detalhes, dos mais nos aos mais grossos.
3.1.5 A Transformada Wavelet Discreta
A Transformada Wavelet Discreta implementada usando-se um algoritmo rpido
baseado em ltros G e H, relacionados a bases wavelet ortogonais, ao invs das funes
e diretamente. O algoritmo para o clculo da TWD conhecido como Algoritmo
Piramidal (MALLAT, 1989) por decompe um por meio de sucessivos passos usando os
ltros H e G de modo recursivo em cada aproximao.
O algoritmo da TWD dito rpido pois possui baixa complexidade e permite uma
computao rpida. Do ponto de vista da Anlise de Algortimos, sub-rea da Anlise da
Complexidade Computacional, o clculo da TWD possuem complexidade computacional
terica de ordem linear no tempo O(N) (MALLAT, 1998). A complexidade temporal
de ordem linear signica que o nmero de passos para a execuo do algoritmo aumenta
linearmente conforme o tamanho N dos dados de entrada (WILF, 1994). A linearidade da
complexidade no tempo uma caracterstica desejvel para um algoritmo, pois o tempo
de processamento est linearmente relacionado ao tamanho da entrada.
Para um sinal y(t) V
0
, sua expanso em srie dada por:
y(t) =
0,k
(t k) ,
0,k
=
_

y(t)(t k)dt (3.38)

No entanto, y(t) pode ser representado em relao a qualquer subespao V
j
e portanto:
y(t) =
j,k
j,k
(t) ,
j,k
=
_

y(t)
j,k
(t)dt (3.39)
Pela expresso (3.34), V
j
= V
j+1
W
j+1
, o que implica que todo o elemento repre-
sentado em V
j
pode ser representado como soma direta de suas componentes em V
j1
e
W
j1
. Com isso, a expresso (3.39) equivale a:
y(t) =
k=
k=
j1,k
j1,k
(t) +
k=
k=
j1,k
j1,k
(t) , (3.40)
com
j1,k
=
_

y(t)
j1,k
(t)dt (3.41)
54
e
j1,k
=
_

y(t)
j1,k
(t)dt . (3.42)
Como (3.34) vale para toda escala j, pode-se seguir este processo de decomposio at
um nvel bem grosseiro de representao, denominado J. E assim V
j
= V
j+1
W
j+1
=
(V
j
= V
j+2
W
j+2
) W
j+1
= (V
J
W
J
) . . . W
j+1
. Desta maneira a expanso de
y(t) dada por:
y(t) =
J,k
J,k
(t) +
J,k
J,k
(t) +
j1,k
j1,k
(t) , (3.43)
com
J,k

J,k

j1,k
seguindo relaes (3.41) e (3.42) para a escala correspondente.
Como o sinal analisado, na prtica, no de comprimento innito, sendo na verdade
denido por meio de amostras discretas dadas em relao a um tempo nito de captao,
a expresso (3.43) adaptada para um sinal discreto e de tamanho nito. A expanso
wavelet de um sinal discretizado y[t] = (y
0
, . . . , y
N1
) dada por:
y[t] =
N
J
k=0
c
J,k
J,k
(t) +
1
j=J
N
j
l=0
d
j,k
j,k
(t) t [0, N
0
] , (3.44)
sendo N
j
= N/2
j
1, c
J,l
os coecientes escala (ou aproximao) e d
j,l
os coecientes
wavelet (ou detalhes) emtodos os nveis de fatorao da transformada, j = 0, 1, . . . , J1.
A TWD direta do sinal computada por sucessivas passagens (encadeamento) por
ltros H e G. Os ltros dependem (tamanho e valores) da funo wavelet relacionada
(Seo 3.1.3). A Figura 3.8 apresenta gracamente o algoritmo da TWD direta (Algo-
ritmo Piramidal de Mallat).
c
0
G 2
/
H 2
@
@
@
@
@
@
@
c
1
G 2
/
H 2
A
A
A
A
A
A
A
A
c
2
G 2
/
H 2
A
A
A
A
A
A
A
A
c
3
d
1
d
2
d
3
Figura 3.8: Representao grca do Algoritmo Piramidal de Mallat, Transformada Wa-
velet Discreta direta.
Na Figura 3.8, G denota o ltro passa-baixa (expresso (3.22)), H denota o ltro
passa-alta (expresso (3.24)), 2 representa a operao de sub-amostragem (o tamanho
do vetor resultante possui a metade do tamanho do vetor original), ou seja reduo de
escala, d
1
, d
2
e d
3
so os coecientes wavelet ou detalhes, em cada nvel, e c
3
so os
coecientes escala ou aproximao no ltimo nvel da transformada.
55
Transformada Wavelet Discreta direta:
c
j+1,k
=
D1
l=0
g
l
c
j,2k+l
(3.45)
d
j+1,k
=
D1
l=0
h
l
c
j,2k+l
, (3.46)
para j = 0, . . . , J e k = 0, . . . , N/2
J
1. Os coecientes escala c
J,k
podem ser interpreta-
dos como a mdia local ponderada do sinal y[t] e os coecientes wavelet d
j,k
representam
a informao complementar ou os detalhes que escapam da mdia ponderada.
As expresses (3.45) e (3.46) referem-se TWD direta parcial (apenas um nvel). Os
vetores resultantes c
j+1
e d
j+1
possuem a metade do tamanho da aproximao anterior
c
j
. Os vetores de coecientes c
j+1
e d
j+1
so encontrados pela convoluo do vetor
da aproximao no nvel anterior c
j
com os vetores dos coecientes dos ltros G e H
respectivamente.
No primeiro passo da TWD direta, a primeira aproximao corresponde ao sinal ini-
cial c
0,t
= y[t]. A cada iterao do algoritmo a aproximao do sinal c
j
decomposta
para a gerao de novos c
j+1
e d
j+1
e assim sucessivamente at que se tenha a aproxi-
mao mais grosseira c
J
conforme J desejado e um conjunto de detalhes d
J
, ..., d
1
. Os
coecientes da Transformada Wavelet ordenados so representados como:
w =
_
(c
J,k
)
N
J
k=0
,
_
(d
j,k
)
N
J
k=0
_
1
j=J
_
, (3.47)
ou seja, w a representao nita (vetor) em termos apenas dos coecientes da decom-
posio do sinal na expresso (3.44).
Para um sinal genrico, a TWD direta (decomposio) representada, sob o ponto de
vista dos vetores dos coecientes, pela Figura 3.9.
56
y
0
y
1
y
2
y
3
y
4
y
5
y
6
y
7
y
8
y
9
y
10
y
11
y
12
y
13
y
14
y
15
(j = 0)

c
1,0
c
1,1
c
1,2
c
1,3
c
1,4
c
1,5
c
1,6
c
1,7
d
1,0
d
1,1
d
1,2
d
1,3
d
1,4
d
1,5
d
1,6
d
1,7
(j = 1)

c
2,0
c
2,1
c
2,2
c
2,3
d
2,0
d
2,1
d
2,2
d
2,3
d
1,0
d
1,1
d
1,2
d
1,3
d
1,4
d
1,5
d
1,6
d
1,7
(j = 2)

c
3,0
c
3,1
d
3,0
d
3,1
d
2,0
d
2,1
d
2,2
d
2,3
d
1,0
d
1,1
d
1,2
d
1,3
d
1,4
d
1,5
d
1,6
d
1,7
(j = 3)
c
4,0
d
4,0
d
3,0
d
3,1
d
2,0
d
2,1
d
2,2
d
2,3
d
1,0
d
1,1
d
1,2
d
1,3
d
1,4
d
1,5
d
1,6
d
1,7
(j = 4)
Figura 3.9: Representao da Transformada Wavelet Discreta para um sinal genrico y
com 16 amostras (2
4
). Os coecientes sombreados, obtidos em cada nvel, permanecem
inalterados nos prximos nveis. Neste exemplo a transformao vai at o maior nvel
possvel (j = 4).
Na Figura 3.9, o sinal y[t], de tamanho N = 16 (2
3
), decomposto inicialmente
em dois vetores c
1
e d
1
, correspondentes ao nvel j = 1, cada um com a metade do
tamanho do vetor do sinal original. No segundo nvel j = 2, os coecientes do vetor
c
1
(aproximao) usado para vetor um novo vetor de aproximao c
2
e detalhes d
2
. O
processo segue at o nvel mximo possvel.
Ao nal do processo da Figura 3.9 os coecientes da transformada wavelet, c
j,l
e d
j,l
,
so agrupados na forma:
(c
3,0
, d
3,0
, d
2,0
, d
2,1
, d
1,0
, d
1,1
, d
1,2
, d
1,3
) . (3.48)
A partir dos coecientes da transformada wavelet (expresso (3.47)), o sinal pode ser
reconstrudo pelo processo inverso. A TWD inversa, Figura 3.10, o processo inverso da
TWD direta e permite a reconstruo do sinal original a partir dos coecientes da trans-
formada wavelet. O processo iterativo de reconstruo do sinal a partir dos coecientes
da transformada wavelet representado na Figura 3.10.
57
c
3
G 2
/
c
2
G 2
/
c
1
G 2
/
c
0
d
3
H 2
>
}
}
}
}
}
}
}
}
d
2
H 2
>
}
}
}
}
}
}
}
}
d
1
H 2
>
~
~
~
~
~
~
~
Figura 3.10: Representao grca do Algoritmo Piramidal de Mallat, Transformada Wa-
velet Discreta Inversa.
Na Figura 3.10, a aproximao (coecientes escala) mais grosseira e os coecientes
dos detalhes (coecientes wavelet) de cada nvel da transformada passam pelos ltros
passa-alta H e passa-baixa G e so reunidos conforme a expresso (3.49). O processo
continua at que todos os nveis da transformada sejam processados e o sinal original seja
reconstrudo.
Transformada Wavelet Discreta inversa:
c
j,k
=
n
2
(k)
n=n
1
(k)
c
j+1,n
g
l2n
+d
j+1,n
h
l2n
, (3.49)
sendo:
_
l D + 1
2
_
n
1
(l) n n
2
(l)
_
l
2
_
, (3.50)
sendo que x| signica: O menor inteiro maior que x; e x| signica: o maior inteiro
menor que x.
Exemplo de TWD com a wavelet de Haar. Usando-se a wavelet de Haar (suporte
D = 2, momentos nulos P = 1) como exemplo, as expresses (3.45) e (3.46) da TWD
parcial correspondem a:
c
j+1,k
= g
0
c
j,2k
+g
1
c
j,2k+1
(3.51)
d
j+1,k
= h
0
c
j,2k
+h
1
c
j,2k+1
, (3.52)
com g
0
= 1/
2 e g
1
= 1/
2 e pela relao (3.28) h

0
= 1/
2 e h
1
= 1/
2.
A gerao dos coecientes escala c
j,k
para a wavelet de Haar na expresso (3.51)
descrita gracamente pela Figura 3.11.
c
j,0
g
0
c
j,1
g
1
w
w
w
w
.{w
w
w
w
c
j,2
g
0
c
j,3
g
1
w
w
w
w
.{w
w
w
w
... c
j,k
g
0
c
0,2k+1
g
1
t
t
t
t
.yt
t
t
t
c
j+1,0
c
j+1,1
... c
j+1,k
Figura 3.11: Transformada Wavelet Discreta, wavelet de Haar, gerao dos coecientes
escala c
j,k
.
58
Na Figura 3.11 so gerados os coecientes escala c
j,k
. Dois elementos da aproximao
inicial c
j,k
so multiplicados com os coecientes da wavelet de Haar, H =
_
1
2
,
1
2
_
e
somados para gerar um elemento no conjunto dos coecientes escala c
j+1,k
. Note que
o processo produz uma verso aproximada, no caso da wavelet de Haar, aproximao
mdia, com a metade dos elementos da aproximao inicial.
Para a wavelet de Haar a gerao dos coecientes d
j,k
(expresso (3.52)) exempli-
cado na Figura 3.12.
c
0,0
h
0
D
D
D
!
D
D
D
c
0,1
h
1
c
0,2
h
0
D
D
D
!
D
D
D
c
0,3
h
1
... c
0,2k
h
0
H
H
H
H
$
H
H
H
c
0,2k+1
h
1
d
1,0
d
1,1
...
d
1,k
Figura 3.12: Transformada Wavelet Discreta, wavelet de Haar, gerao dos coecientes
wavelet d
j,k
.
Na Figura 3.12 so gerados os coecientes wavelet d
j,k
. Dois elementos da apro-
ximao inicial c
j,k
so so multiplicados com os coecientes da wavelet de Haar, H =
_
1
2
,
1
2
_
e somados para gerar um elemento no conjunto dos coecientes escala d
j+1,k
.
Note que o processo produz um vetor dos detalhes (coecientes wavelet, no caso da wa-
velet de Haar, diferenas) com a metade dos elementos da aproximao inicial.
Da mesma forma que na TWD com qualquer wavelet de Daubechies, no caso da
wavelet de Haar, o sinal pode ser reconstrudo (TWD inversa) a partir do vetor de todos
os coecientes da transformada wavelet w (expresso (3.47)). Para a wavelet de Haar as
Equaes para TWD inversa parcial (expresso (3.49)) equivale a:
c
j1,2k
= g
0
c
j,k
+h
0
d
j,k
(3.53)
c
j1,2k+1
= g
1
c
j,k
+h
1
d
j,k
. (3.54)
Gracamente, para a wavelet de Haar cada passo da TWD inversa apresentado na
Figura 3.13.
59
c
0,0
c
0,2
... c
0,2k
c
1,0
g
0
O
d
1,0
h
0D
D
D
aD
D
D
c
1,1
g
0
O
d
1,1
h
0D
D
D
aD
D
D
... c
1,k
g
0
O
d
1,k
h
0H
H
H
dH
H
H
H
c
0,1
c
0,3
... c
0,2k+1
c
1,0
g
1
z
z
z
z
=
z
z
z
z
d
1,0
h
1
O
c
1,1
g
1
z
z
z
z
=
z
z
z
z
d
1,1
h
1
O
... c
1,k
g
1
v
v
v
v
:
v
v
v
v
d
1,k
h
1
O
Figura 3.13: Transformada Wavelet Discreta inversa, wavelet de Haar, reconstruo dos
coecientes wavelet c
j,k
.
Na Figura 3.13 cada coeciente c
j,k
reconstrudo combinando-se um coeciente
c
j1,k
e um coeciente d
j1,k
e fazendo-se uma convoluo com os ltros G e H.
Exemplo de TWD com a wavelet Daubechies D4. Usando-se agora a wavelet Dau-
bechies D4 (suporte D = 4, momentos nulos P = 2), as expresses (3.45) e (3.46) da
TWD correspondem a:
c
j+1,k
= g
0
c
j,2k
+g
1
c
j,2k+1
+g
2
c
j,2k+2
+g
3
c
j,2k+3
(3.55)
d
j+1,k
= h
0
c
j,2k
+h
1
c
j,2k+1
+h
2
c
j,2k+2
+h
3
c
j,2k+3
. (3.56)
Para a TWD inversa tem-se:
c
j1,2k
= g
2
c
j,k
+h
2
d
j,k
+g
0
c
j,k+1
+h
0
d
j,k+1
(3.57)
c
j1,2k+1
= g
3
c
j,k
+h
3
d
j,k
+g
1
c
j,k+1
+h
1
d
j,k+1
, (3.58)
com G =
_
g
0
=
1+
3
4
2
, g
1
=
3+
3
4
2
, g
2
=
3
3
4
2
, g
3
=
1
3
4
2
_
e pela relao (3.28) H =
(h
0
= g
3
, h
1
= g
2
, h
2
= g
3
, h
3
= g
0
).
Na TWD com a wavelet Daubechies D4, como ltro possui tamanho (suporte) D = 4,
quatro posies no vetor inicial so multiplicadas com os valores correspondentes nos
ltros H ou G para a gerao de um coeciente c
j,k
(Figura 3.14) ou d
j,k
(Figura 3.15)
correspondentes. Em relao ao vetor inicial, a cada iterao desloca-se duas posies
(uma posio em relao ao vetor gerado devido a reduo do tamanho ou escala por 2).
60
c
j,0
g
0
c
j,1
g
1
w
w
w
w
.{w
w
w
w
c
j,2
g
0
g
2
k
k
k
k
k
k
k
k
uk
k
k
k
k
k
k
c
j,3
g
1
w
w
w
w
.{w
w
w
w
g
3
g
g
g
g
g
g
g
g
g
g
g
g
g
sg
g
g
g
g
g
g
g
g
g
g
g
c
j,4
g
0
g
2
k
k
k
k
k
k
k
k
uk
k
k
k
k
k
k
c
j,5
g
1
w
w
w
w
.{w
w
w
w
g
3
g
g
g
g
g
g
g
g
g
g
g
g
g
sg
g
g
g
g
g
g
g
g
g
g
g
g
2
m
m
m
m
m
m
m
m
m
vm
m
m
m
m
m
g
3
i
i
i
i
i
i
i
i
i
i
i
ti
i
i
i
i
i
i
i
i
c
j+1,0
c
j+1,1
c
j+1,2
Figura 3.14: Transformada Wavelet Discreta, wavelet D4, gerao dos coecientes escala
c
j,k
.
c
j,0
h
0
c
j,1
h
1
x
x
x
x
.{x
x
x
c
j,2
h
0
h
2
k
k
k
k
k
k
k
k
uk
k
k
k
k
k
k
c
j,3
h
1
x
x
x
x
.{x
x
x
h
3
g
g
g
g
g
g
g
g
g
g
g
g
g
sg
g
g
g
g
g
g
g
g
g
g
g
c
j,4
h
0
h
2
k
k
k
k
k
k
k
k
uk
k
k
k
k
k
k
c
j,5
h
1
x
x
x
x
.{x
x
x
h
3
g
g
g
g
g
g
g
g
g
g
g
g
g
sg
g
g
g
g
g
g
g
g
g
g
g h
2
m
m
m
m
m
m
m
m
m
vm
m
m
m
m
m
h
3
j
j
j
j
j
j
j
j
j
j
j
j
tj
j
j
j
j
j
j
j
j
d
j+1,0
d
j+1,1
d
j+1,2
Figura 3.15: Transformada Wavelet Discreta, wavelet D4, gerao dos coecientes wave-
let d
j,k
.
O deslocamento a cada duas posies e a necessidade de quatro posies no vetor
inicial leva a um problema na ltima posio do vetor (fronteira) quando no h mais
posies disponveis no vetor inicial. O problema da fronteira tambm ocorre na TWD
inversa e para todas as wavelets de Daubechies comsuporte D > 2 (Exceto a D2 ou Haar).
Como na prtica os sinais no so innitos (vetor com tamanho limitado) contorna-se o
problema da fronteira usando-se uma estratgia circular, ou seja, assume-se que o vetor
do sinal original circular e quando faltarem posies no nal do vetor usa-se as posies
iniciais.
Transformada Wavelet Discreta direta para caso circular. Para todas as wavelets
Daubechies no caso da estratgia circular as expresses da TWD direta (3.45) e (3.46) so
dadas por:
c
j+1,k
=
D1
l=0
g
l
c
j,2k+l
2
j
(3.59)
d
j+1,k
=
D1
l=0
h
l
c
j,2k+l
2
j
, (3.60)
sendo que x)
q
denota o operador mdulo x mod q, ou seja o resto da diviso inteira.
Transformada Wavelet Discreta inversa para caso circular. A TWD inversa (ex-
presso (3.49)) similar para o caso circular:
c
j,k
=
n
2
(k)
n=n
1
(k)
c
j+1,n
2
j1
g
l2n
+d
j+1,n
2
j1
h
l2n
, (3.61)
com n
1
e n
2
denidos em (3.50).
61
Exemplos numricos para a TWD. Como exemplo numrico da TWD direta, a Fi-
gura 3.16 apresenta o processo da transformada para um sinal discretizado com 64 amos-
tras y[t] = (y
0
, . . . , y
N1
), N = 2
6
= 64 usando-se a wavelet de Haar.
Figura 3.16: Exemplo da Transformada Wavelet Discreta, wavelet de Haar, para um sinal
discreto y[t] gerando os coecientes transformada c
3
, d
3
, d
2
, d
1
. Nos pontos onde a funo
constante os detalhes d
j,k
correspondentes so nulos.
Na Figura 3.16, no primeiro passo da transformada o sinal original y = (y
0
, . . . , y
N1
)
(A) com 64 pontos (N = 2
6
= 64,) decomposto em coecientes escala c
1,k
(expres-
so (3.45)) e coecientes wavelet d
1,k
(expresso (3.46)). Repare que os coecientes c
1,k
(C) correspondem uma verso aproximada, com a metade da resoluo (metade dos
pontos), do sinal original (A). Os coecientes wavelet d
1,k
(D) correspondem aos deta-
lhes perdidos nesta aproximao e apresentam valores signicativos nos pontos onde o
sinal apresenta descontinuidade. No segundo passo os coecientes c
1,k
so novamente
decompostos em coecientes c
2,k
(E) e coecientes d
2,k
(F) com a metade do tamanho,
novamente, os c
2,k
representam uma aproximao dos c
1,k
e os d
2,k
representam os deta-
lhes perdidos na passagem de c
1,k
para c
2,k
. No terceiro passo so gerados os c
3,k
(G) e
d
3,k
(H) a partir de c
2,k
.
A TWD com a wavelet de Haar (Figura 3.16) consegue representar corretamente nos
62
coecientes escala c
j,k
funes lineares, ou seja, nos pontos onde a funo constante
os coecientes wavelet (detalhes), d
1,k
(D), d
2,k
(F) e d
3,k
(H), so nulos nas posies k
correspondentes s posies t onde o sinal y[t] (B) constante.
Usando-se o mesmo sinal y[t] da Figura 3.16 (TWD direta com a wavelet de Haar), a
Figura 3.17 apresenta um exemplo da TWD direta usando-se a wavelet Daubechies D4.
Figura 3.17: Exemplo da Transformada Wavelet Discreta, wavelet Daubehies D4. Nos
pontos onde a funo constante, os detalhes d
j,k
correspondentes so nulos.
Na Figura 3.17 percebe-se que os coecientes d
j,k
(D) (F) (H) nas posies k corres-
pondentes s posies onde o sinal original constante ou linear so nulos enquanto que
os pontos de descontinuidade do sinal produzem valores signicativos. Esta uma carac-
terstica da wavelet Daubechies D4 de representar corretamente nos coecientes escala
c
j,k
funes constantes e lineares.
Comparando-se os exemplos da TWD usando-se a wavelet de Haar (D2) (Figura 3.16)
com o exemplo usando-se a wavelet Daubechies D4 (Figura 3.17), percebe-se que en-
quanto a wavelet de Haar consegue representar corretamente nos coecientes escala ape-
nas funes constantes, a TWD usando a wavelet Daubechies D4 consegue representar
corretamente funes constantes e lineares. Essa constatao condiz com a propriedade
dos Momentos Nulos (Seo 3.1.1) das wavelets Daubechies, ou seja, a capacidade de re-
63
presentar corretamente funes polinomiais de ordemp conforme o nmero de momentos
nulos P do ltro. A propriedade dos Momentos nulos tambm est relacionada a carac-
terstica da Representao Esparsa de um sinal por meio da TWD. Ou seja, tomando-se
como exemplo a TWD com a Daubechies D4 (Figura 3.17), nos pontos onde o sinal su-
ave (no caso, constante ou linear) os coecientes d
j,k
so nulos e onde h singularidades
(mudanas) os coecientes so signicativos. Na prtica isso signica que alguns coe-
cientes d
j,k
podem ser desconsiderados (quando so nulos ou prximos de zero) segundo
algum critrio sem perda na representao do sinal.
3.1.6 A Transformada Wavelet Discreta Packet
A Transformada Wavelet Packet (COIFMAN; WICKERHAUSER, 1992) uma gene-
ralizao do algoritmo piramidal da Transformada Wavelet tradicional. Na TWD Packet,
contudo, ambos os coecientes da aproximao e detalhes so decompostos.
Na Figura 3.18 feita uma comparao entre a TWD tradicional com a TWD Packet.
Figura 3.18: Comparao da TWD tradicional ( esquerda) com a arvore de decomposi-
es da TWD Packet ( diretita).
Na TWD tradicional (Na Figura 3.18, esquerda) o sinal inicial decomposto em
coecientes de aproximao e coecientes de detalhes. A primeira aproximao (nvel 1)
ento usada para gerar novos coecientes de aproximao e novos coecientes de deta-
lhes (nvel 2). A decomposio segue sempre usando os coecientes da aproximao do
nvel anterior para a gerao de novos coecientes de aproximao e novos coecientes
de detalhes at o ltimo nvel possvel ou desejado. Nveis diferentes de coecientes de
detalhes no so mais decompostos. Na TWD packet, no entanto, no apenas os coeci-
entes de aproximaes, mas tambm os coecientes de detalhes so decompostos, como
ilustrado na Figura 3.18 direita.
A TWD Packet gera 2
N
grupos diferentes de coecientes, em comparao com a
TWD tradicional que gera N +1. No entanto, devido a reduo da escala em cada passo,
64
o nmero total de coecientes igual ao sinal original, da mesma forma que a TWD
tradicional, e dessa forma no h redundncia. Do ponto de vista computacional, a com-
plexidade da TWP de ordem loglinear, O(N log N) (COIFMAN; WICKERHAUSER,
1992).
Alm da Transformada Wavelet Discreta, h ainda a Transformada Wavelet Contnua
(TWC) (DAUBECHIES, 1992) (MALLAT, 1998). A TWC surgiu como uma alternativa
a Transformada de Fourier. Como computadores no processam sinais contnuos, a TWC
computada usando-se uma verso discretizada. No entanto, a verso discretizada da
TWC no equivalente a TWD. A TWC discretizada no realmente uma transformada
discreta. A TWC produz informaes altamente redundantes e essa redundncia requer
mais recursos computacionais. A TWD, por outro lado, produz informao suciente
para a anlise sem redundncia, com uma signicativa reduo do custo computacional
(T.LACHMAN et al., 2010). Devido ao custo computacional, para os propsitos deste
trabalho a TWC no ser considerada.
3.2 Threshold
A reduo de rudo importante nas mais variadas aplicaes que envolvem proces-
samento de sinais, assumindo que o rudo est associado informao de alta frequncia,
isto oscilaes esprias. A ltragem de sinais uma das aplicaes da Transformada
Wavelet e baseia-se no corte ou encolhimento dos coecientes wavelet (detalhes) segundo
algum critrio. O corte dos coecientes wavelet tem o objetivo de eliminar os compo-
nentes ruidosos do sinal considerando que este est representado nos coecientes wavelet
(detalhes) menos signicativos em relao a um valor de corte (threshold). O texto desta
Seo segue as denies adotadas por Maarten Jansen em (JANSEN, 2000, Cap. 2).
A ltragem de um sinal usando wavelets consiste em trs passos:
1. Transformada Wavelet Discreta direta do sinal;
2. corte ou encolhimento dos coecientes wavelet conforme a estratgia escolhida; e
3. Transformada Wavelet Discreta inversa (reconstruo) usando os coecientes aps
o corte.
Dado um sinal discretizado, representado na forma de um vetor y[t] = (y
0
, . . . , y
N1
),
sendo t a posio em relao ao tempo e N = 2
J
o nmero de elementos no vetor. No
primeiro passo calcula-se a TWD direta do sinal usando os ltros associados a uma base
wavelet predenida:
65
w = W(y) . (3.62)
A expresso (3.62) representa a TWD em notao matricial, W a operao de trans-
formao do sinal (transformada wavelet discreta direta) e w o vetor formado pelos
coecientes da transformada wavelet (expresso (3.63)), ou seja, coecientes escala c
j,k
e
coecientes wavelet d
j,k
ordenados:
w =
_
(c
J,k
)
N
J
k=0
,
_
(d
j,k
)
N
J
k=0
_
1
j=J
_
, (3.63)
O segundo passo consiste em selecionar os coecientes wavelet d
j,k
segundo algum
critrio, que denominado estratgia de corte:
w = Thresh
(w) . (3.64)
Na expresso (3.64), H a operao de corte ou encolhimento dependendo da es-
colha da estratgia e determinao do parmetro com o qual os coecientes d
j,k
sero
comparados, chamado valor de corte (ou threshold) e w representa os coecientes da
transformada wavelet aps a operao de corte ou encolhimento:
w =
_
(c
J,k
)
N
J
k=0
,
_
_
d
j,k
_
N
j
k=0
_
1
j=J
_
. (3.65)
Ocorte ou encolhimento realizado apenas nos coecientes wavelet (detalhes) d
j,k
em
todos os nveis j da transformada em todas as posies de cada nvel. H duas estratgias
mais usadas para o corte do coecientes, a Hard Threshold (DONOHO; JOHNSTONE,
1995):
Thresh
(d
j,k
) =
_
0, [d
j,k
[
d
j,k
, [d
j,k
[ >
(3.66)
e a Soft Threshold (DONOHO; JOHNSTONE, 1995):
Thresh
(d
j,k
) =
_
_
_
d
j,k
, d
j,l
>
0, [d
j,k
[
d
j,k
+, d
j,l
<
(3.67)
Na estratgia Hard Threshold (funo (3.66)), assume-se que os coecientes wave-
lets que so menores que o valor do threshold, so componentes ruidosos, cando assim
o sinal bem descrito pelos coecientes wavelets maiores do que o valor de . Assim,
os coecientes menores o threshold so eliminados. No caso da Soft Threshold (fun-
o (3.67)) assume-se que os componentes ruidosos esto distribudos igualmente em
66
todos os coecientes wavelets, assim todos os coecientes wavelet so reduzidos pelo
valor do threshold.
Para a denio do valor do threshold proposto por (DONOHO; JOHNSTONE,
1995) a estratgia do Threshold Universal:
=
2 ln N , (3.68)
sendo que o valor do threshold encontrado, N o nmero de amostras no sinal e

estimativa do desvio padro do rudo.
Ainda em (DONOHO; JOHNSTONE, 1995) proposto o uso do mtodo baseado no
MAD (Median absolute deviation) para a estimativa do desvio padro do rudo:
= 1.4826 MAD , (3.69)
sendo que MAD a mediana dos desvios absolutos em relao mediana dos dados:
MAD = mediana
i
([d
j,k
mediana
j
(d
j
)[) . (3.70)
A estimativa do desvio padro do rudo calculada usando os coecientes wavelet
do primeiro nvel j = 1 da transformada.
O terceiro e ltimo passo a reconstruo do sinal a partir dos coecientes wavelet
truncados w, usando a TWD inversa, representada aqui por W
1
:
y = W
1
(w) , (3.71)
sendo que w so os coecientes da transformada wavelet com corte nos coecientes dos
detalhes e y o sinal aps a ltragem.
O algoritmo completo para a ltragem do sinal (Algoritmo 3.1) consiste na: Transfor-
mada Wavelet Discreta direta; estimar o valor do threshold usando os coecientes wavelet
(detalhes); aplicar a estratgia de corte conforme o threshold; e na Transformada Wavelet
Discreta inversa sobre os coecientes aps o corte.
67
Algoritmo 3.1: Filtragem de sinal com Wavelets.
Entrada: Sinal y = (y
t
)
t[0,1,...,N1]
1 Calcular a transformada wavelet discreta direta na srie de entrada y, obtendo-se os
coecientes escala c
J,k
e wavelets d
j,k
2 Estimar o valor do threshold (nvel de corte) com base nos coecientes wavelets
3 Aplicar o corte dos coecientes wavelets menores que o threshold, conforme a
estratgia de corte (Hard ou Soft), obtendo-se os coecientes sem rudo d
j,k
4 Calcular a transformada wavelet inversa usando os coecientes aps o corte w,
obtendo-se a estimativa do sinal sem rudo y
Sada: Sinal ltrado y
Neste Captulo inicialmente foram vistas algumas caractersticas da Transformada
Wavelet Discreta e os algoritmos para o clculo rpido da transformada. Em seguida
foram estudas algumas tcnicas de corte ou truncamento dos coecientes wavelet (deta-
lhes).
H um conjunto de bases wavelet discretas ortonormais da famlia Daubechies. As
bases wavelet de Daubechies so usadas conhecendo-se apenas os coecientes dos ltros
calculados previamente, permitindo o uso de algoritmos rpidos para o clculo da trans-
formada. O algoritmo rpido para o clculo da Transformada Wavelet Discreta, tambm
conhecido como Algoritmo Piramidal, decompe o sinal original por meio de sucessivos
passos usando os ltros de modo recursivo em cada aproximao do sinal. Aps o clculo
da Transformada Wavelet Discreta o sinal ca representado como um conjunto de coe-
cientes, sendo uma aproximao grosseira e vrios nveis de detalhes para cada escala. A
Transformada Wavelet permite dessa forma uma anlise do sinal em diferentes escalas de
tempo.
O corte ou truncamento de um sinal conforme algum valor de threshold busca di-
minuir ou eliminar coecientes no signicativos para o sinal. A Transformada wavelet
associada a uma estratgia de corte de coecientes permite uma representao esparsa do
sinal porque possibilita a escolha de apenas os coecientes mais relevantes para o sinal
original.
Do ponto de vista da anlise de trfego de rede, a Transformada Wavelet Discreta di-
reta pode ser usada para a modelagem dos dados de rede. O clculo do valor do threshold
permite identicar nos coecientes wavelet valores associados a anomalias de trfego.
4 PROPOSTA DE UM DETECTOR DE INTRUSES DE
REDE BASEADO EM WAVELETS- DIBW
Neste Captulo proposto um mecanismo para a deteco ataques de rede baseado na
Transformada Wavelet Discreta (TWD) e Thresholds. O mecanismo proposto, nomeado
de Detector de Intruses em Wavelets (DIbW), usada no mdulo de anlise em um
Sistema Detector de Intruses de Rede (SDIR) e destina-se a deteco de ataques por
meio da anlise dos descritores do trfego.
Aabordagemde anlise baseada na TWDdo sinal formado a partir do trfego padro
de rede e o clculo de thresholds para a indicao de anomalias. Assume-se que um
ataque ou intruso gera uma anomalia (alterao) no padro de trfego que perceptvel
nos coecientes da transformada wavelet. O mecanismo proposto, portanto, pode ser
classicado junto com as abordagens baseadas em anomalias.
Na Seo 4.1 apresentada a localizao do detector e denida uma arquitetura para
utilizao.
Na Seo 4.2 apresentado o mecanismo proposto para a deteco de anomalias de
rede.
Na Seo 4.3 feita uma discusso sobre o mecanismo de deteco de anomalias
proposto neste trabalho, relacionando-se com as abordagens tratadas nos trabalhos relaci-
onados.
4.1 Arquitetura de um Sistema Detector de Intruses de Rede
Inicialmente dene-se uma arquitetura de um SDIR em que o mecanismo de deteco
usado. A arquitetura (Figura 4.1) composta por trs mdulos: Coleta, Anlise, e
Resposta.
69
Figura 4.1: Arquitetura do Sistema Detector de Intruses de rede baseado em Wavelets
O mdulo de Coleta responsvel pela gerao dos dados para a anlise. A fonte de
dados normalmente uma sonda de coleta conectada a uma determinada rede ou segmento
de rede. A srie de dados gerada pelo processo de amostragem de variveis descritivas
do trfego de rede. A estatstica relacionada a uma determinada varivel descritiva, por
exemplo o nmero total de pacotes trafegados, armazenada em um contador especco.
A cada intervalo de tempo t (intervalo de amostragem), o valor do contador lido e
repassado para anlise.
O mdulo de Anlise responsvel pela identicao de anomalias nos dados do
trfego de rede. O mecanismo de deteco, tema central deste trabalho, descrito na
Seo 4.2.
No mdulo de Resposta so gerados os alarmes. Os alarmes consistem na indicao
da ocorrncia de algum valor com tamanho absoluto maior que o threshold em qualquer
um dos nveis de detalhes da transformada wavelet. Os alarmes, como informao vi-
sual, auxiliam o administrador na tomada de deciso. Ao nal os alarmes so salvos,
juntamente com sua posio em relao ao trfego original, em um arquivo de log para
inspeo ofine.
4.2 Proposio de um mecanismo de deteco de anomalias de rede
baseado em wavelets
Neste trabalho proposto um mecanismo de deteco de anomalias a ser usado no
mdulo de anlise de um Sistema Detector de Intruses de Rede. O mecanismo proposto,
nomeado de Detector de Intruses baseado em Wavelets (DIbW), baseado na Transfor-
mada Wavelet Discreta direta dos dados de rede, na determinao de valores de thresholds
70
e a identicao, propriamente dita, da ocorrncia de eventuais anomalias nos coecientes
analisados.
A Figura 4.2 apresenta o uxograma do mecanismo de deteco de anomalias pro-
posto.
Contadores
Trf. Rede
Gerao
do sinal
(y
t
)
t[0,N1]
/
Transf.
Wavelet Direta
H G
/
Normalizao
dos Coecientes
/
Threshold
e Deteco
Alarmes
Figura 4.2: Fluxograma do funcionamento do mdulo de deteco de anomalias.
O mecanismo de deteco de anomalias (Figura 4.2) composto de quatro passos:
Gerao do sinal de anlise; Transformada Wavelet Discreta Direta; Normalizao dos
coecientes wavelet; e Deteco usando Threshold. Usando os contadores do trfego de
rede, o sinal de anlise gerado por meio de uma janela de observao deslizante. O sinal
relativo a janela de observao transformado usando usando-se as wavelets discretas
de Daubechies e em seguida os coecientes wavelets so normalizados. A partir dos
coecientes aps a normalizao calculado o valor do threshold e este usado para
detectar alguma anomalia, indicando na forma de um alarme.
4.2.1 Contadores do Trfego de Rede
A ideia inicial do mtodo de deteco que qualquer anomalia de rede gera alguma
alterao no comportamento padro de alguma varivel descritiva do trfego. Por exem-
plo, variao de volume, abrupta ou progressiva, e mudanas na forma, considerando-se
a evoluo dos valores passados. Os descritores costumam ser mtricas de volume de
trfego, como o nmero de pacotes e nmero de bytes trafegados, e so modelados como
uma srie de dados.
Para gerao dos dados (contadores) usado o processo de amostragem de um con-
tador relacionado a alguma varivel descritiva do trfego de rede. A amostragem relaci-
onada a uma determinada varivel, por exemplo o nmero total de pacotes trafegados,
armazenada no contador especco. A cada intervalo de tempo t (intervalo de amostra-
gem), o valor do contador lido, armazenado e repassado para anlise.
H diferentes formas de seleo e agregao de variveis, porm para este trabalho
71
utilizam-se caractersticas primrias, como nmero de pacotes por protocolo, porta e ag.
Por causa de critrios de privacidade neste trabalho so extradas apenas informaes
dos headers dos pacotes. Na seo 2.3.1 foram apresentadas algumas formas de sele-
o de variveis usadas neste trabalho e nos trabalhos relacionados (GAO et al., 2006)
(DAINOTTI; PESCAPE; VENTRE, 2006) (KIM; REDDY, 2008) (LU; TAVALLAEE;
GHORBANI, 2008).
4.2.2 Gerao do sinal
O mecanismo de anlise baseado em uma janela de observao deslizante (GAO
et al., 2006), formada por amostras de uma varivel descritiva de rede. O conjunto de
amostras de uma varivel especca, ordenadas no tempo t forma uma srie temporal:
y[t] = (y
0
, y
1
, y
2
, y
3
, . . . , y
M1
) , M N , (4.1)
sendo que y
0
, quando t = 0, corresponde amostra mais recente, t o ndice
1
da posio
da amostra na srie e M o tamanho da srie (nmero de elementos).
A medida que vrias amostras so adicionadas a srie, a complexidade computacio-
nal necessria para a anlise de toda a srie cresce proporcionalmente. Na hiptese de
utilizao de todos os valores da srie haveria um momento em que a anlise se torna-
ria computacionalmente impraticvel. Usa-se aqui, porm, uma janela de observao de
tamanho xo N e menor do que o tamanho da srie original, N < M. O tamanho N da ja-
nela um nmero natural, N N, potncia de 2, requisito para o clculo da transformada
wavelet.
Janela
..
y
0
, y
1
, y
2
, y
3
, . . . , y
N1
, y
N
, . . . , y
M1
. (4.2)
A cada intervalo de tempo t (intervalo de amostragem) uma nova observao dis-
ponibilizada pelo Mdulo de Coleta e includa na janela observao. A janela de ob-
servao deslizante porque a medida que uma nova amostra y
0
torna-se disponvel, esta
includa na srie e a amostra mais antiga y
N
descartada (Figura 4.3). Dessa forma, a
janela de observao mantem-se atualizada e de tamanho xo.
1
Neste texto as amostras so indexadas de forma crescente para se evitar trabalhar comndices negativos.
O ndice zero corresponde amostra mais recente e os ndices maiores do que zero as amostras mais antigas.
72
_ _ _ _ _ _ _ _ _ t
_ _ _ _ _ _ _ _ _ t + 1
y
0
y
1
. . . y
N1
y
N
Figura 4.3: Atualizao da janela de observao.
A cada atualizao da janela de observao um novo sinal y correspondente a esta
janela gerado para a anlise:
y = (y
0
, y
1
, y
3
, ..., y
N1
) , N = 2
e
e N . (4.3)
O sinal inicial y um vetor correspondente janela de observao, ou seja poro
visvel da srie de dados de entrada. O vetor y processado pela TWD. Como esta
transformada utiliza apenas sries de tamanhos em potncia de dois, o tamanho N da
janela de observao est restrita mesma regra:
N = 2
e
, e N . (4.4)
O intervalo de tempo total da janela de observao :
T = N t , (4.5)
sendo, N o nmero de amostras na janela e t o intervalo de amostragem.
Considerando que uma srie descritiva do trfego de rede varivel no tempo (no
estacionria), justica-se a utilizao de uma janela de observao xa e limitada para
que observaes muito antigas no interram na anlise e sejam consideradas apenas as
observaes mais recentes. Alm disso, limitar o tamanho da janela de observao reduz
a carga computacional necessria. A complexidade da transformada wavelet discreta
linearmente proporcional ao tamanho do vetor, O(N) (MALLAT, 1998).
Para aplicao em tempo real, o tempo de processamento da janela deve ser menor
do que o intervalo de amostragem t. Essa uma restrio para a anlise em tempo real
e deve ser garantida pelo ajuste correto dos parmetros: intervalo de amostragem t e
tamanho da janela N. O atraso (delay) mximo terico, portanto, o prprio intervalo de
amostragem e mnimo o tempo de processamento.
73
4.2.3 A Transformada Wavelet
ATransformada Wavelet Discreta (TWD) uma tcnica de anlise emmultirresoluo
(MRA - Multiresolution Analysis), o que permite que um sinal seja analisado pelos seus
componentes localizados em diferentes escalas. Estudos demonstraram que anomalias de
rede podem manifestar-se em diferentes escalas de tempo (BARFORD et al., 2002). Em
escalas maiores so detectadas anomalias de longa durao e em escalas menores (mais
nas) anomalias de curta durao ou variaes abruptas (BARFORD et al., 2002).
sabido que o trfego de rede possui diversas propriedades estatsticas e exibe de-
pendncias curtas (SRD - Short-Range Dependence) e longas (LRD - Long-Range De-
pendence) em sua estrutura de correlao (LELAND et al., 1994) (BORGNAT et al.,
2008). A estrutura de correlao complexa diculta a caracterizao do trfego de rede.
No entanto, a transformada wavelet possui a capacidade de reduzir as complexas relaes
temporais do trfego de rede em SRD nos coecientes wavelet (WANG; REN; SHAN,
2003).
A Transformada Wavelet Discreta direta calculada usando-se o sinal corresponde
ao trfego de rede, obtido conforme coleta de determinada varivel em um intervalo de
amostragem predenido. A motivao principal na utilizao da Transformada Wavelet
a sua capacidade em reduzir a correlao temporal dos seus coecientes (WANG; REN;
SHAN, 2003). Desta forma, o trfego de rede original com SRD e LRD representado
adequadamente pelos coecientes wavelet fracamente correlacionados.
Na TWD, o sinal original:
y = (y
0
, y
1
, ..., y
N1
) , N = 2
r
, r N (4.6)
decomposto e ca representado pelos coecientes da aproximao e dos nveis de coe-
cientes de detalhes.
A partir do sinal inicial y[t] so gerados os coecientes na escala 1 para a aproximao
c
1,k
e detalhe d
1,k
, conforme as expresses (3.45) e (3.46) da Seo 3.1.5. Os vetor dos
coecientes c
1
e d
1
gerados possuem a metade do tamanho N/2 do sinal inicial:
c
1
=
_
c
1,0
, c
1,1
, ..., c
1,N/21
_
(4.7)
d
1
=
_
d
1,0
, d
1,1
, ..., d
1,N/21
_
(4.8)
O vetor w formado por todos os coecientes c
1
e d
1
possui, portanto, o mesmo tama-
nho total que o vetor do sinal original:
74
w =
__
c
1,0
, ..., c
1,N/21
_
,
_
d
1,0
, ..., d
1,N/21
__
. (4.9)
A partir do vetor dos coecientes c
1
so obtidas as fatoraes c
2
e d
2
pela TWD para
o prximo nvel (j = 2). Novamente os coecientes so armazenados no vetor w:
w =
__
c
2,0
, ..., c
2,N/41
_
,
_
d
2,0
, ..., d
2,N/41
_
,
_
d
1,0
, ..., d
1,N/21
__
. (4.10)
O processo executado recursivamente at que o ltimo nvel J da TWD seja al-
canado, sendo o nvel mximo J log
2
N. A Figura 4.4 exemplica gracamente o
processo da TWD para um sinal discretizado.
y
0
. . . y
N1
(j = 0)

c
1,0
. . . c
1,N/21
d
1,0
. . . d
1,N/21
(j = 1)

c
2,0
. . . c
2,N/41
d
2,0
. . . d
2,N/41
d
1,0
. . . d
1,N/21
(j = 2)

c
3,0
. . . d
3,0
. . . d
2,0
. . . d
2,N/41
d
1,0
. . . d
1,N/21
(j = 3)
c
3,N/81
d
3,N/81
Figura 4.4: Representao da Transformada Wavelet Discreta de um sinal y com e 3
nveis de transformao. Os coecientes wavelet sombreados, obtidos em cada nvel,
permanecem inalterados nos prximos nveis subsequentes.
A cada nvel da transformada (Figura 4.4) o tamanho dos vetores resultantes re-
duzido pela metade k = 0 . . . N/2
j
. So mantidas as informaes sobre os detalhes
(coecientes wavelet) em diferentes escalas.
4.2.4 Normalizao dos coecientes
O trfego de rede possui alta impulsividade (LELAND et al., 1994) e no segue uma
distribuio normal (SCHERRER et al., 2007). Na Transformada Wavelet do trfego
de rede, tambm os coecientes wavelet (detalhes) no seguem uma distribuio normal
(GIBILISCO, 2004, p. 87). A normalizao dos coecientes tem o objetivo de fazer com
75
que sua distribuio de probabilidade (PDF - Probability Density Function) seja mais
prxima de uma distribuio normal (gaussiana) (GIBILISCO, 2004, p. 87), permitindo
o uso desta caracterstica para a denio de valores de threshold.
A distribuio normal uma das mais importantes distribuies da estatstica pela
frequncia com que ocorre. Assumindo-se a normalidade da distribuio de probabilidade
de uma varivel pode-se estimar a probabilidade de ocorrncia de um determinado valor
com base na mdia e desvio padro da varivel, usando-se uma tabela de distribuio de
probabilidades. A Tabela 4.1 apresenta a probabilidade de ocorrncia de um valor estar
em um determinado intervalo, denominado Intervalo de Conana, em relao mdia e
ao desvio padro para uma distribuio normal.
Intervalo Probabilidade
1 0.682689492137
2 0.954499736104
3 0.997300203937
4 0.999936657516
5 0.999999426697
6 0.999999998027
Tabela 4.1: Probabilidade em relao ao desvio padro para uma distribuio normal.
Construda com base em (GIBILISCO, 2004, p. 161)
Assumindo que uma varivel aleatria segue uma distribuio de probabilidade nor-
mal cerca de 68% dos valores esto a menos de uma vez o desvio padro de distncia em
relao a mdia, cerca de 95% dos valores esto a menos de duas vezes o desvio padro
de distncia em relao mdia e cerca 99.7% dos valores esto a menos de 3 vezes o
desvio padro de distncia em relao a mdia, conforme mostra a Tabela 4.1.
H um conjunto de tcnicas usadas para tornar os dados normais (SAKIA, 1992),
sendo a raiz quadrada e o logaritmo as tcnicas mais usadas. Neste trabalho, usada a
raiz quadrada ou o logaritmo, por necessitarem de menos clculos e empiricamente terem
se mostrado adequadas. A normalizao realizada atravs da extrao da raiz quadrada
de cada elemento do vetor dos coecientes:
z
i
= sgn(w
i
)
_
[w
i
[ (4.11)
ou pela operao logaritmo:
z
i
= sgn(w
i
)ln([w
i
[ + 1) , (4.12)
sendo sgn(w
i
) a Funo Sinal:
76
sgn(w
i
) =
_
_
_
1, se x < 0
0, se x = 0
1, se x > 0 ,
sendo w
i
um valor qualquer do vetor w dos coeciente da Transformada Wavelet e z
i
o
valor aps a normalizao.
A escolha da funo para a normalizao dos coecientes ser discutida na Seo 6.2.
4.2.5 Clculo do valor do Threshold
Para a deteco de anomalias de trfego de rede prope-se o clculo de valores de
threshold para anlise e comparao com os coecientes wavelet (detalhes).
Considera-se que a Transformada Wavelet para uma srie formada por uma varivel
descritiva do trfego de rede capaz de capturar a tendncia (aproximao grosseira) nos
seus coecientes escala c
J,k
e consegue captar variaes dessa tendncia em cada nvel da
transformada via coecientes wavelet d
j,k
onde h mudanas (singularidades) no padro
do sinal. Prope-se, ento, o uso de threshold para deteco destes pontos de singularida-
des. Para tal proposio, considera-se, tambm, que os pontos de singularidades do sinal
representam anomalias.
Assumindo-se a normalidade dos coecientes wavelet (aps a normalizao), prope-
se o clculo do valor do threshold conforme:
= +C , (4.13)
sendo que o valor do threshold a ser encontrado, a mdia da amostra, a esti-
mativa do desvio padro para a amostra e C uma constante correspondente ao Intervalo
de Conana (GIBILISCO, 2004, p. 161) desejado conforme a Tabela 4.1. Pela expres-
so (4.13), o valor do threshold encontrado considera apenas a parte positiva em relao
Tabela 4.1, no entanto, na aplicao do threshold so considerados os valores positivos
ou negativos em mdulo.
O trabalho (KIM; REDDY, 2008) tambm usa o Intervalo de Conana para encontrar
valores de threshold. Embora com dados e em contexto diferente do usado neste trabalho,
os autores consideraram o intervalo 4 adequado para a deteco de anomalias.
O sistema usa como estimativa do desvio padro do rudo o desvio padro dos coe-
cientes wavelet. O mtodo direto para estimao do desvio padro dos coecientes
wavelet d
j,k
em cada nvel j calculado como segue:
77
=
_
1
N/2
j
N/2
j
1
k=0
(d
j,k
)
2
, (4.14)
sendo N/2
j
o nmero de coecientes wavelet d
j,k
no nvel j e a mdia dos coecientes
=
1
N/2
j
N/2
j
1
k=0
d
j,k
no nvel j.
O mtodo para a estimativa do desvio padro do rudo baseado no MAD (Median
absolute deviation), proposto por (DONOHO; JOHNSTONE, 1995), no usado aqui
porque este exige a ordenao do vetor de entrada, o que tornaria o processo computaci-
onalmente ineciente para uma anlise em tempo real.
4.2.6 Deteco das anomalias
Considerando que as anomalias de rede esto representadas nos coecientes wavelet
e que o threshold consegue identicar variaes signicativas em relao ao comporta-
mento padro do sinal, os coecientes maiores que o valor de corte (threshold) so con-
siderados indicadores de anomalias. O sistema considera qualquer coeciente acima do
threshold em qualquer nvel da transformada como uma anomalia (funo (4.15)). A
indicao da ocorrncia de uma anomalia enviada ao mdulo de resposta e gerao de
alarmes.
Alarme
(d
j,0
) =
_
1, se [d
j,0
[ >
0, se [d
j,0
[ .
. (4.15)
A funo (4.15) dene como o coeciente wavelet d
j,0
avaliado para a deteco de
uma anomalia. Caso o coeciente avaliado seja maior que o valor do threshold a funo
retorna o valor 1 indicando uma anomalia, caso contrrio a funo retorna 0.
Como mostrado na Figura 4.5 o primeiro coeciente d
j,0
de cada nvel j usado para
a deteco de anomalias. Por exemplo, para o nvel j = 1 o coeciente d
1,0
testado
conforme a funo (4.15). Pelo fato da janela de deteco ser deslizante (expresso 4.2)
apenas o primeiro coeciente d
j,0
(k = 0) para cada nvel j precisa ser comparado con-
forme a funo (4.15). Como a janela y atualizada a cada nova observao (Figura 4.3),
o que gera novamente o calculo da TWD e das outras etapas do algoritmo de de deteco,
os d
j,0
para cada nvel j correspondem aos detalhes mais recentes do vetor da janela de
deteco y e dos dados de entrada.
78
Alarme
Thresh.
d
1,0
d
1,1
. . . d
1,N/21
(j = 1)
Alarme
Thresh.
d
2,0
d
2,1
. . . d
2,N/41
(j = 2)
Alarme
Thresh.
d
3,0
d
3,1
. . . d
3,N/81
(j = 3)
Figura 4.5: Exemplo deteco de anomalias.
A Figura 4.6 exemplica o processo de deteco em um nvel de detalhes da transfor-
mada wavelet.
Figura 4.6: Coecientes wavelet, d
2
, com respectivos valores de threshold.
Na Figura 4.6 esto representados apenas os coecientes wavelet (detalhes) do nvel
d
2
da transformada wavelet do trfego de rede. Devido a Janela de Deteco ser deslizante
(expresso (4.3)), apenas os ltimo coeciente wavelet de cada nvel aps a transformada
e normalizao usado para deteco ou gerao de alarme (funo (4.15)) comparando-
se com o valor do Threshold gerado conforme os coecientes da janela toda (expres-
so (4.13)). Dessa forma, foram plotados no grco (Figura 4.6) apenas os coecientes
do nvel d
2
, usados em cada execuo completa do processo de deteco (Algoritmo 4.1)
para cada nova amostra ordenada no tempo, juntamente com o Threshold correspon-
dente. Para a gerao de alarmes, os coecientes maiores que o valor do Threshold em
cada nvel de detalhes indicam uma anomalia. Todos os coecientes wavelet (detalhes)
so usados (embora no representados na Figura 4.6) para teste e a ocorrncia de uma
anomalia em qualquer um dos nveis de detalhes suciente para a gerao de um alarme
correspondente a respectiva posio em relao ao tempo.
O processo completo para a deteco de anomalias descrito no Algoritmo 4.1.
79
Algoritmo 4.1: Algoritmo do mecanismo de deteco de anomalias de rede.
Entrada: Nova observao y
0
Sada: Valor do alarme
1 Atualize a janela de observao:
Janela
..
y
0
, y
1
, y
2
, y
3
, . . . , y
N1
, y
N
, . . . , y
M1
, obtendo-se
o vetor y = (y
0
, y
1
, y
3
, ..., y
N1
)
2 Calcule a TWD Direta do vetor y, obtendo-se os coecientes wavelet:
w = ((c
J,k
)
N/2
j
1
k=0
, ((d
j,l
)
N/2
j
1
k=0
)
1
j=J
// Normalizao os coeficientes
3 para j J at 1 faa
4 para k 0 at N/2
j
1 faa
5 d
j,k
= sgn(d
j,k
)
_
[d
j,k
[
6 m
7 m
8 Calcule o desvio padro dos coecientes wavelets: =
_
1
N/2
j
N/2
j
1
l=0
(d
j,k
)
2
9 Calcule o valor do Threshold: = +C
// Gerao de alarmes
10 alarme
t
0
11 para cada nvel j faa
12 se [d
j,0
[ > ento
13 alarme
t
alarme
t
+ 1
14 m
15 m
16 Retorne alarme
t
O Algoritmo 4.1 descreve os passos que mecanismo de deteco proposto: atualiza-
o da janela de observao (linha 1); Transformada Wavelet Discreta direta do vetor da
janela (linha 2); normalizao dos coecientes wavelet (linha 3); clculo do desvio padro
dos coecientes wavelet (linha 8); e gerao dos alarmes (linha 11). O Algoritmo exe-
cutado toda vez que uma nova observao disponibilizada. A coleta de amostras de um
descritor de rede de responsabilidade do mdulo de Coleta do SDIR, que deve realizar
esta tarefa de acordo com um intervalo de amostragem t. Para uma deteco em tempo
real necessrio que o tempo de processamento do algoritmo seja menor que o intervalo
amostragem usado pelo mdulo de Coleta. Ao nal do processamento do algoritmo
retornado um valor para o alarme. O valor zero indica que no foi detectado nenhuma
anomalia. A indicao de um alarme, normalmente de forma visual, de responsabili-
dade do mdulo de Resposta de um SDIR. O tempo de processamento do algoritmo
analisado no Captulo 6.
80
4.3 Trabalhos relacionados e consideraes nais
Nesta Seo feito um comparativo entre o mecanismo de deteco proposto neste
trabalho com algumas abordagens vistas em alguns trabalhos relacionados (GAO et al.,
2006) (DAINOTTI; PESCAPE; VENTRE, 2006) (KIM; REDDY, 2008) e (LU; TAVAL-
LAEE; GHORBANI, 2008). Embora as abordagens dos trabalhos relacionados diram
quanto aos alvos da deteco, a localizao e a forma de obteno dos dados de entrada, o
objetivo desta Seo analisar apenas os algoritmos de deteco de anomalias baseados
em wavelets usados por tais trabalhos.
No trabalho em (DAINOTTI; PESCAPE; VENTRE, 2006) foi proposto um meca-
nismo de deteco de anomalias de volume de trfego de rede com o objetivo de detectar
ataques do tipo DoS. O sistema combina uma abordagem tradicional, baseado em So-
mas Cumulativas (CUSUM - CUmulative SUM) (BASSEVILLE; NIKIFOROV, 1993, p.
35) e Mdias Mveis Exponencialmente Ponderadas (EWMA - Exponentially Weighted
Moving Average) com uma nova abordagem baseada na Transformada Wavelet Continua
(TWC) e Threshold. A arquitetura baseada em dois estgios. O primeiro estgio usa
EWMA e Thresholds e destina-se a a fazer a deteco grosseira de ataques. O segundo
estgio, usa a TWC, destina-se a renao e deteco na dos ataques, para diminuir o
nmero de falsos alertas. A Wavelet Me usada foi a Morlet. Para o trabalho dessa dis-
sertao usa-se a Transformada Wavelet Discreta, em um nico mdulo de deteco, em
oposio a Transformada Wavelet Contnua (TWC). A TWD mais adequada para tratar
de dados j discretizados, como o caso deste trabalho que faz uso de dados gerados pela
amostragem de contadores de rede (Seo 2.3.1). Alm disso, a TWD computacional-
mente eciente e gera coecientes sem redundncia (T.LACHMAN et al., 2010).
No trabalho em (GAO et al., 2006) foi proposto um detector de anomalias de rede ba-
seado na Transformada Wavelet Packet (TWP) (COIFMAN; WICKERHAUSER, 1992).
Os dados de rede so transformados utilizando-se a transformada direta wavelet packet,
com bases wavelet da famlia Daubechies, e reconstrudo a partir dos coecientes wa-
velet para cada nvel da transformada. Medidas estatsticas, como mdia e varincia,
foram usadas para caracterizar uma anomalia, como a razo da mdia ou da varincia
entre a janela de deteco e a janela histrica foram mensuradas e comparadas com va-
lores de threshold predenidos para identicar uma anomalia. A abordagem adotada no
trabalho dessa dissertao diferencia-se daquela adotada em (GAO et al., 2006), porque
neste trabalho faz-se uso da Transformada Wavelet Discreta (TWD) tradicional. Neste
trabalho usa-se a TWD direta sem a necessidade da TWD inversa. A TWP possui com-
81
plexidade computacional maior que a Transformada Wavelet Discreta tradicional (MAL-
LAT, 1998). A complexidade da TWP de ordem loglinear, O(N log N) (COIFMAN;
WICKERHAUSER, 1992), enquanto que a TWD tradicional possui complexidade linear
O(N) (MALLAT, 1998). Este trabalho faz uso da Transformada Wavelet Discreta direta
com funes ortonormais de Daubechies.
No trabalho em (LU; TAVALLAEE; GHORBANI, 2008) foi usada uma abordagem
para deteco de anomalias de rede baseada na Transformada Wavelet e sries auto-
regressivas. No sistema proposto foram selecionadas variveis descritoras de trfego,
usando-se o modelo de agregao por uxos origem-destino. O sinal original trans-
formado usando wavelets (Transformada Wavelet discreta) e os coecientes wavelet d
j,k
aproximados usando um modelo de predio auto-regressivo do tipo ARX (AutoRegres-
sive with eXogenous input) e o resduo da predio usado para a deteco de anoma-
lias utilizado o GMM (Gaussian Mixture Model). A estratgia de deteco de anoma-
lias consiste na identicao de outliers (valor signicativamente diferente dos demais),
assumindo-se, que a presena destes no resduo indica a existncia de anomalias no tr-
fego da rede. A abordagem adotada no trabalho desta dissertao difere daquela adotada
em (LU; TAVALLAEE; GHORBANI, 2008), pois usa-se os coecientes wavelet direta-
mente sem a necessidade de outra etapa de processamento.
Considerando-se apenas o mecanismo de deteco de anomalias, em (KIM; REDDY,
2008) foi aplicada a Transformada Wavelet discreta no sinal de entrada e reconstrudo
(Transformada wavelet Inversa) para cada nvel da transformada. Ou seja, com os coe-
cientes wavelet d
j,k
, para cada nvel j, reconstrudo o sinal considerando-se apenas
estes coecientes e desconsiderando-se os demais. Dessa forma, o sinal reconstrudo para
cada nvel representa a contribuio daquele nvel no sinal original. A partir do sinal re-
construdo para cada nvel feita a anlise e identicao de anomalias. Diferentemente
da abordagem usada em (KIM; REDDY, 2008), neste trabalho os coecientes wavelet
(detalhes) so usados diretamente para a deteco de anomalias, sem usar a transformada
wavelet inversa. Assumindo que as singularidades so devido a anomalias de rede, para
os propsitos deste trabalho, considera-se que a anlise direta dos coecientes wavelet
adequada para determinar a ocorrncia de anomalias. No trabalho de (KIM; REDDY,
2008) a transformada inversa executada para cada nvel dos detalhes. A Transformada
Wavelet discreta inversa possui a mesma complexidade computacional da transformada
direta (MALLAT, 1998), ento eliminando-se a transformada inversa, reduz-se a comple-
xidade computacional do mtodo. Portanto, o mecanismo de deteco proposto aqui,
capaz de detectar anomalias que geram mudana signicativa na magnitude dos coeci-
82
entes wavelet, sem utilizar a transformada inversa.
A abordagem adotada nessa dissertao baseia-se na Transformada Wavelet Discreta,
como em (LU; TAVALLAEE; GHORBANI, 2008) e (KIM; REDDY, 2008). Porm na
abordagem de (LU; TAVALLAEE; GHORBANI, 2008) os coecientes wavelet precisam,
em um segundo estgio, ser modelados usando sries temporais do tipo ARX para a de-
teco de anomalias. Enquanto que no trabalho dessa dissertao os coecientes Wavelet
so usados diretamente para a deteco de anomalias, na abordagem de (KIM; REDDY,
2008) os coecientes precisam ser reconstrudos (TWD inversa) para cada nvel da trans-
formada. Os trabalhos em (LU; TAVALLAEE; GHORBANI, 2008) e (KIM; REDDY,
2008) tambm diferem quanto em relao as variveis descritivas de trfego. Quanto aos
objetivos da deteco de anomalias, em termos de ataques, e quanto a forma de coleta
dos dados, esse trabalho assemelha-se mais ao trabalho em (GAO et al., 2006), onde fo-
ram usadas variveis descritivas de trfego baseadas em tempo. Finalmente, este trabalho
difere dos demais simplicando, em termos de complexidade do algoritmo, o mtodo de
anlise, o que potencializa seu uso para deteces em tempo real.
5 DESENVOLVIMENTO DO DETECTOR DE
INTRUSES DE REDE BASEADO EM WAVELETS- DIBW
Com o propsito de avaliar o mecanismo de deteco de anomalias de rede proposto,
foi implementado um prottipo denominado Detector de Intruses de rede baseado em
Wavelets- DIbW
1
. O DIbW foi desenvolvido na forma de um framework, de modo a ser
expansvel e congurvel.
Neste captulo so apresentados detalhes do desenvolvimento e a implementao do
DIbW. O objetivo apresentar de forma geral alguns aspectos e decises de projeto no
desenvolvimento do DIbW. A descrio do desenvolvimento do mecanismo relevante
na discusso a respeito do seu desempenho computacional.
Na Seo 5.1 apresentado o ambiente computacional usado no desenvolvimento e
implementao do prottipo.
Na Seo 5.2 descrito como o framework foi desenvolvido, seus requisitos e par-
metros.
5.1 Ambiente de desenvolvimento
O DIbW foi desenvolvido na linguagem de programao Java
2
(JAVA, 2010) SDK
(Software Development Kit) verso 1.6 usando o IDE (Integrated Development Environ-
ment) NetBeans
3
(NETBEANS, 2010) verso 6.0. Para a gerao dos grcos foi usado
o software GNUPLOT
4
(GNUPLOT, 2010), verso 4.2.6. Todas as ferramentas usadas
estavam disponveis sob licena de software livre (GPL ou compatveis).
1
Para o desenvolvimento deste trabalho foram usadas as instalaes do CRS/INPE MCT (Centro Regi-
onal Sul Instituto Nacional de Pesquisas Espaciais do Ministrio da Cincia e Tecnologia) por meio de uma
parceria com o GMicro da UFSM.
2
http://java.sun.com/
3
http://www.netbeans.org/
4
http://www.gnuplot.info/
84
5.2 Framework para deteco de anomalias de rede
O DIbW foi desenvolvido na forma de um framework de modo a ser exvel e expan-
svel. O framework implementa o mdulo de Anlise (Figura 4.2) conforme o mecanismo
de deteco de anomalias proposto na Seo 4.2 do Captulo 4. O mdulo de Coleta deve
ser construdo pensando-se na fonte dos dados. Neste trabalho, am de validar da abor-
dagem de deteco de anomalias, o mdulo de Coleta foi adaptado para trabalhar com
dados de trfego de rede disponveis conforme ser tratado no Captulo 6. O mdulo de
Resposta foi construdo com a funcionalidade bsica de disponibilizar visualmente e sal-
var os logs das anomalias ocorridas. A reatividade quando da deteco de uma anomalia
de rede no faz parte do escopo do trabalho.
O DIbW foi desenvolvido considerando-se os seguintes requisitos: ser genrico, con-
gurvel, gil e eciente computacionalmente. A generalidade do DIbW est no fato de
ser possvel o uso de qualquer descritor de trfego de rede. A entrada deve estar na forma
de amostras de descritores (contadores) de trfego de rede, referente a caractersticas pri-
mrias ou derivadas, coletados e disponibilizados em intervalos de tempo pr-denidos.
O DIbW foi desenvolvido para ser congurvel a m de permitir ajustes no meca-
nismo de deteco conforme a necessidade. Durante a instanciao do framework so
denidos os seguintes parmetros: tamanho da janela de observao, base wavelet, fun-
o de normalizao dos coecientes wavelet, funo para estimativa do desvio padro e
funo para o clculo do threshold.
Pensando-se na agilidade na deteco de anomalias, no desenvolvimento do DIbW
procurou-se diminuir o tempo de resposta a um evento, usando-se as informaes dispo-
nveis no momento, restringindo o tempo necessrio para conrmao de uma anomalia.
Otempo mximo de reao depende do intervalo de amostragemt dos dados de entrada,
denido no mdulo de Coleta, e do tempo de anlise dos dados. O intervalo de tempo
necessrio para o processamento (anlise) dos dados da srie de entrada depende da eci-
ncia computacional dos algoritmos implementados, e ser discutida no Captulo 6.
A Figura 5.1 apresenta o diagrama de classes do DIbW.
85
Figura 5.1: Diagrama de Classes do Detector de Intruses de rede baseado em Wavelets-
DIbW.
A classe principal do framework Detector (Figura 5.1), que deve ser inicializada
passando-se como argumento os parmetros de congurao do sistema. A classe De-
tector possui o mtodo novoValor que invocado toda vez que uma nova observao
disponibilizada. Por meio deste mtodo so invocados mtodos de outras classes e todo
o processamento necessrio executado e retornado um valor para o alarme, caso uma
anomalia seja detectada.
Cada passo no mecanismo de deteco de anomalias (Figura 4.2) foi implementado
em um classe separada. A classe que implementa o mecanismo de atualizao da Janela
de Observao usada por meio da interface Janela. A interface Wavelet permite o uso
de uma das classes que implementam a Transformada Wavelet Discreta conforme uma
base de Daubechies especca. A Classe Normalizacao acessada aps a TWD para a
normalizao dos coecientes wavelets (detalhes). A interface Threshold permite, por
meio da classe que implementa os seus mtodos, o clculo do valor do threshold. O valor
do Threshold e os coecientes wavelet so usados pela classe Alarme para determinar,
caso seja detectado, a ocorrncia de uma anomalia. As classes ou interfaces Janela, Wa-
86
velet , Normalizacao, Threshold e Alarme so tratadas em subsees separadas. A classe
Estatstica usada para a gerao de alguns indicadores estatsticos para anlise mas no
est envolvida diretamente no mecanismo de deteco.
5.2.1 Janela de Observao
No framework denida a interface Janela (Figura 5.1) que especica o comporta-
mento da Janela de Observao. A interface Janela possui como atributo o tamanho N da
janela, que deve ser denido na inicializao, e a operao novoValor que recebe como
argumento um valor numrico (nova observao) e permite a leitura do vetor completo
da janela. Na classe JanelaDeslizante implementada a Janela de Observao deslizante
(sobreposta) de tamanho xo. O mtodo de atualizao da Janela de Observao imple-
mentado como uma la simples, onde o valor lido (mais recente) adicionado na la
enquanto que o ltimo elemento (mais antigo) descartado (Figura 4.3).
O mecanismo da Janela de Observao deslizante permite que apenas as ltimas (mais
recentes) N amostras sejam usadas e as mais antigas sejam descartadas da anlise. Como
discutida na Seo 4.2.2, esta postura temo objetivo de permitir o uso apenas das amostras
mais relevantes e evitar a sobrecarga computacional pelo processamento de dados muito
antigos.
5.2.2 Transformada Wavelet Discreta
Para uso do DIbW foram implementados os algortimos das transformadas wavelet
discreta direta e inversa. Foram implementadas as wavelets ortonormais da famlia Dau-
bechies: Daubechies 2 (D2 ou Haar), Daubechies 4 (D4), Daubechies 6 (D6) e Daube-
chies 8 (D8). Foi denida a interface Wavelet (Figura 5.1) que possui dois mtodos, um
para a Transformada Wavelet Direta e outro para a Transformada Wavelet Inversa, ambos
recebem um vetor como argumento e retornam um vetor com os coecientes conforme a
operao. As diferentes wavelets so implementadas em classes separadas e processam a
Transformada Wavelet conforme a Seo 3.1.5.
A base wavelet que ser usada no processamento denida como parmetro durante
a inicializao do DIbW.
5.2.3 Normalizao dos coecientes wavelet
Para normalizao dos coecientes wavelet (detalhes), usa-se a extrao da raiz qua-
drada ou o logaritmo dos coecientes wavelet, apresentadas na Seo 4.2.4, expres-
so (4.11) e expresso (4.12), respectivamente.
87
A classe Normalizao usada pela classe Detector para a normalizao dos coeci-
entes Wavelet (detalhes). Na classe so implementados os mtodos raizQuadrada para a
funo Raiz Quadrada e o mtodo logaritmo para funo Logartmica.
Algoritmo 5.1: Algoritmo transformada Raiz Quadrada.
Entrada: w : double[N]
1 para i 0 at N faa
2 se w
i
< 0 ento
3 w
i
=
_
[w
i
[
4 m
5 seno
6 w
i
=

w
i
7 m
8 m
Sada: w
Algoritmo 5.2: Algoritmo transformada Logartmica.
Entrada: w : double[N]
1 para i 0 at N faa
2 se w
i
< 0 ento
3 w
i
= (ln([w
i
[)) + 1
4 m
5 seno
6 w
i
= ln(w
i
) + 1
7 m
8 m
Sada: w
A funo Raiz Quadrada descrita no Algortimo 5.1 e o Algoritmo 5.2 descreve a
funo Logartmica. A escolha da funo para a normalizao, raizQuadrada ou loga-
ritmo, feita na inicializao.
5.2.4 Threshold
O clculo do valor do threshold feito em dois passos: o clculo do valor do desvio
padro dos coecientes wavelet e o clculo do threshold propriamente dito.
Para encontrar o desvio padro dos coecientes o DIbW usa a frmula (4.14). O valor
do threshold encontrado pela frmula:
= +C , (5.1)
sendo C uma constante correspondente ao intervalo desejado conforme a Tabela 4.1. O
mtodo implementado em classe separada usando a interface Threshold (Figura 5.1).
88
5.2.5 Gerao de alarmes
A gerao de alarmes responsabilidade da classe Alarme (Figura 5.1) e implementa
o algoritmo da Figura 5.3.
Algoritmo 5.3: Algoritmo para gerao de Alarmes.
Entrada: d : double[J]
1 para cada nvel j faa
2 se [d
j,N/2
j
1
[ > ento
3 alarme
t
alarme
t
+ 1
4 m
5 m
Sada: alarme
t
Oalgoritmo percorre todos os nveis j dos detalhes transformada wavelet d
j
e compara
o ltimo elemento, posio N/2
j
1, de cada nvel com o respectivo valor do threshold.
Caso o valor do coeciente testado seja maior, em mdulo, que o threshold a varivel
indicadora de alarmes acrescida de 1. No nal o valor do alarme retornado. Como
todo o mtodo executado toda vez que uma nova amostra de uma varivel de rede
disponibilizada, a sada do mtodo corresponde ao nvel do alarme naquele instante de
tempo t. O valor do alarme um nmero inteiro entre zero e o nmero mximo de nveis
na transformada, 0 alarme
t
J. Um valor zero signica que nenhuma anomalia foi
detectada, enquanto que um valor igual ou maior que 1 indica a ocorrncia de anomalias
em um ou mais nveis respectivamente.
Neste Captulo foi descrito o desenvolvimento e implementao do Detector de Intru-
ses baseado emWavelets (DIbW). Osistema foi desenvolvido na forma de umframework
de modo a ser exvel, expansvel e congurvel. O framework DIbW implementa o m-
dulo de anlise de Sistema Detector de Intruses de Rede baseado em anomalias e permite
a integrao com os mdulos de Coleta e Resposta. O mecanismo de deteco de ano-
malias baseado na Transformada Wavelet Discreta direta, normalizao dos coecientes
wavelet e clculo do threshold.
Durante a instanciao e inicializao do framework so denidos os parmetros: ta-
manho da janela de observao, funo wavelet, funo de normalizao dos coecientes
wavelet, funo para estimativa do desvio padro e funo para o clculo do threshold.
O DIbW realiza as seguintes tarefas: clculos das mdias e o desvio padro; da TWD de
Daubechies; do valor do Threshold; deteco de anomalias; e gerao de alarmes.
6 VALIDAO DA ABORDAGEM DE DETECO DE
ANOMALIAS DE REDE
Neste captulo so apresentados alguns experimentos usando o SDIR desenvolvido, o
Detector de Intruses de rede baseado em Wavelets (DIbW), com o objetivo de avaliar a
abordagem de deteco de anomalias de rede proposta.
Para avaliar o desempenho desta proposta importante a realizao de testes de de-
teco com amostras de trfego real. Procurou-se por amostras de trfego de rede padro
e amostras com diferentes tipos de ataques. desejvel, tambm, que os ataques este-
jam junto com o trfego padro para que o sistema seja testado quanto capacidade de
diferenciar os ataques do trfego padro.
Na Seo 6.1 so descritos a base de dados usada como Fonte de Informao para
o DIbW, os ataques de rede relevantes para os experimentos e a preparao dos dados e
seleo das variveis descritivas do trfego de rede.
Na Seo 6.2 so apresentados alguns experimentos realizados com o objetivo de de
denir alguns parmetros de congurao do DIbW.
Na Seo 6.3 so apresentados os experimentos realizados com o objetivo de avaliar
a capacidade de deteco de anomalias da abordagem proposta. Os experimentos esto
agrupados conforme o protocolo de rede analisado.
Na Seo 6.4 so apresentados os experimentos realizados com o objetivo de avaliar
o desempenho computacional do DIbW.
6.1 A base de dados de trfego de rede
Para a realizao de testes de deteco com o mecanismo proposto neste trabalho,
utilizou-se a base de dados de trfego de rede do MIT DARPA (Massachusetts Institute of
Technology e Defense Advanced Research Projects Agency, respectivamente) (DARPA,
1999), conhecida como DARPA 99
1
. A base de dados do DARPA 99 possui informaes
1
Disponvel em: http://www.ll.mit.edu/mission/communications/ist/corpora/ideval/data/1999data.html
90
de trfego real, coletados em uma rede controlada, e com anomalias causadas por ata-
ques conhecidos, gerados por scripts. Os ataques presentes na base so documentados,
condio necessria para a contagem de erros e acertos da abordagem de deteco.
A base DARPA 99 recebeu algumas crticas (MAHONEY; CHAN, 2003), por possuir
trfego de uma rede fechada, porque os ataques foram gerados usando-se scripts e porque
alguns ataques j estarem ultrapassados. No entanto, a base ainda tem sido amplamente
usada para testar algortimos de deteco de anomalias (ZHANG; HAN; REN, 2009)
(CHENG; XIE; WANG, 2009) (ZHANG; GU, 2007) (LU; TAVALLAEE; GHORBANI,
2008) (XIA; XU, 2008) (HUANG; THAREJA; SHIN, 2006).
Segundo (BOLZONI, 2009) a DARPA 99 a nica base de trfego de rede pblica
compreensvel para testes de algortimos de deteco de anomalias de rede. Porm o
fato de j ser antiga diculta a pesquisa de novos mtodos de deteco. Apesar de al-
guns ataques presentes na DARPA 99 serem antigos, para este trabalho, justica-se o uso
desta base pelo fato do mecanismo de deteco de anomalias proposto ser genrico e no
destinado a um tipo especco de ataque. Vale ressaltar tambm que a escolha da base
de dados no inuencia na avaliao de desempenho computacional da ferramenta, visto
que os dados so transformados em sries de amostragens de contadores especcos da
mesma forma independente da fonte de dados.
A base de dados DARPA 99 composta por 5 semanas de trfego de rede, contendo
5 dias cada semana. A base contm cerca de 9 Gb de dados coletados pela ferramenta
TCPDUMP (TCPDUMP, 1998) na sada e na entrada do roteador da rede. Foram usados
somente dados de sada e dados de entrada da rede do Lincoln Laboratory e Air Force Re-
search Laboratory, capturados pelo programa tcpdump. Das 5 semanas disponibilizadas,
as 3 primeiras so chamadas de dados de treinamento e contm seus ataques documenta-
dos, as semanas 4 e 5 so chamadas de dados de teste e seus ataques no encontram-se
documentados.
A primeira e a terceira semanas da fase de treinamento possuem um trfego normal de
rede, ou seja, no possuem nenhum tipo de ataque registrado neste perodo. A tabela 6.1
possui uma lista comos ataques que ocorreramna segunda semana da fase de treinamento.
Esta tabela possui o identicador do ataque, a data, tempo inicial, endereo de origem do
ataque, e nome do ataque.
6.1.1 Seleo dos dados para os experimentos
A base de dados do DARPA possui 5 semanas de trfego, cada semana com apenas
cinco dias, sendo os dados coletados na sada e entrada do roteador das 8 horas da manh
91
Tabela 6.1: Lista com ataques DARPA. Fonte: (DARPA, 1999).
ID Data Tempo Origem Nome
1 08/03/1999 08:01:01 hume.eyrie.af.mil NTinfoscan
2 08/03/1999 08:50:15 zeno.eyrie.af.mil pod
3 08/03/1999 09:39:16 marx.eyrie.af.mil back
4 08/03/1999 12:09:18 pascal.eyrie.af.mil httptunnel
5 08/03/1999 15:57:15 pascal.eyrie.af.mil land
6 08/03/1999 17:27:13 marx.eyrie.af.mil secret
7 08/03/1999 19:09:17 pascal.eyrie.af.mil ps attack
8 09/03/1999 08:44:17 marx.eyrie.af.mil portsweep
9 09/03/1999 09:43:51 pascal.eyrie.af.mil eject
10 09/03/1999 10:06:43 marx.eyrie.af.mil back
11 09/03/1999 10:54:19 zeno.eyrie.af.mil loadmodule
12 09/03/1999 11:49:13 pascal.eyrie.af.mil secret
13 09/03/1999 14:25:16 pascal.eyrie.af.mil mailbomb
14 09/03/1999 13:05:10 172.016.112.001-114.254 ipsweep
15 09/03/1999 16:11:15 marx.eyrie.af.mil phf
16 09/03/1999 18:06:17 pascal.eyrie.af.mil httptunnel
17 10/03/1999 12:02:13 marx.eyrie.af.mil satan
18 10/03/1999 13:44:18 pascal.eyrie.af.mil mailbomb
19 10/03/1999 15:25:18 marx.eyrie.af.mil perl (Failed)
20 10/03/1999 20:17:10 172.016.112.001-114.254 ipsweep
21 10/03/1999 23:23:00 pascal.eyrie.af.mil eject (console)
22 10/03/1999 23:56:14 hume.eyrie.af.mil crashiis
24 11/03/1999 09:33:17 marx.eyrie.af.mil satan
25 11/03/1999 10:50:11 marx.eyrie.af.mil portsweep
26 11/03/1999 11:04:16 pigeon.eyrie.af.mil neptune
27 11/03/1999 12:57:13 marx.eyrie.af.mil secret
28 11/03/1999 14:25:17 marx.eyrie.af.mil perl
29 11/03/1999 15:47:15 pascal.eyrie.af.mil land
30 11/03/1999 16:36:10 172.016.112.001-254 ipsweep
31 11/03/1999 19:16:18 pascal.eyrie.af.mil ftp-write
32 12/03/1999 08:07:17 marx.eyrie.af.mil phf
33 12/03/1999 08:10:40 marx.eyrie.af.mil perl (console)
34 12/03/1999 08:16:46 pascal.eyrie.af.mil ps (console)
35 12/03/1999 09:18:15 duck.eyrie.af.mil pod
36 12/03/1999 11:20:15 marx.eyrie.af.mil neptune
38 03/12/1999 13:12:17 zeno.eyrie.af.mil loadmodule
39 03/12/1999 14:06:17 marx.eyrie.af.mil perl (Failed)
40 03/12/1999 14:24:18 pascal.eyrie.af.mil ps
41 03/12/1999 15:24:16 pascal.eyrie.af.mil eject
42 03/12/1999 17:13:10 pascal.eyrie.af.mil portsweep
43 03/12/1999 17:43:18 pascal.eyrie.af.mil ftp-write
de um dia at as 6 horas do outro dia. A primeira e terceira semanas possuem trfego
de rede padro sem ataques. A segunda semana de trfego apresenta ataques de rede,
sendo eles identicados na documentao da base de dados, como mostra a Tabela 6.1. A
92
quarta e quinta semanas no so usadas neste trabalho, porque possuemmuitos ataques em
intervalos de tempo muito curto entre si e pouco trfego normal, o que no corresponde a
um ambiente real e prejudica a adaptao do algoritmo de deteco ao padro de trfego
real.
A base DARPA 99 contm todos os pacotes coletados de forma completa, incluindo
headers e payload. Para este trabalho, porm so consideradas apenas as informaes
contidas nos headers dos pacotes, abstendo-se de extrair qualquer informao do payload
do pacote. Embora esta restrio possa dicultar a deteco de algumas formas de ata-
ques, por exemplo ataques que exploram caractersticas especcas dos protocolos HTTP
(Hypertext Transfer Protocol) (FIELDING et al., 1999), SMTP (Simple Mail Transfer
Protocol) (KLENSIN, 2008) ou FTP (File Transfer Protocol) (POSTEL; REYNOLDS,
1985), garante-se a proteo dos dados e a condencialidade da informao.
Esto presentes na segunda semana 43 ataques das mais diferentes formas, como ata-
ques a servidores web, ataques de negao de servio e escaneamento de portas. Amaioria
dos ataques presentes na base exploram vulnerabilidades conhecidas, algumas j solucio-
nadas. Alguns desses ataques no so perceptveis analisando-se os descritores primrios
de trfego. Para os propsitos deste trabalho, foram considerados apenas ataques que po-
dem ser identicados usando somente as informaes presentes nos headers dos pacotes,
sem inspecionar o payload, e que geram alguma alterao no volume ou na forma do
trfego de rede, considerando-se o trfego total, o protocolo TCP, o protocolo UDP e o
protocolo ICMP.
Os ataques de rede selecionados consistem dos seguintes tipos:
MailBomb: ataque de negao de servio, quando tem-se um grande envio de men-
sagens para entregar, com o intuito de travar ou limitar o funcionamento normal de
um servidor.
Neptune: ataque SYN Flood para negao de um servio em uma ou mais portas.
Crashiis: ataque em que enviado uma url muito grande para um servidor Micro-
soft IIS derrubando-o.
PoD: denial of service Ping of Death, so enviados pings (pacotes ICMP) malfor-
mados para um computador.
Satan: ataque que visa identicar vulnerabilidades no sistema.
93
Portsweep: faz uma varredura de portas para determinar os servios rodando em
um computador.
O ataques selecionados enquadram-se na categoria de ataques de negao de servio:
MailBomb, Neptune, Crashiis, PoD; ou na categoria de escaneamento: Satan, Portsweep.
Ataques da categoria Negao de Servio (DoS - Denial of Service) (PENG; LECKIE;
RAMAMOHANARAO, 2007) consistem na tentativa de dicultar o acesso legtimo a um
servio. Geralmente, esses ataques exploram vulnerabilidades dos protocolos de comuni-
cao com o objetivo de desabilitar a capacidade de resposta da vtima. O escaneamento
de portas (portscan) envolve um host remoto escaneando portas TCP na mquina da v-
tima em busca de servios vulnerveis.
No ataque mailbomb um grande nmero de mensagens de e-mail enviada para um
servidor por meio de um host comprometido, conectado pela porta SMTP (Simple Mail
Transfer Protocol) do servidor diretamente. Este ataque pode resultar em milhares de
mensagens no desejadas para uma conta de algum usurio. Um ataque mailbomb tpico
envia cerca de 10 MB de emails no desejados (HUANG; THAREJA; SHIN, 2006).
O ataque Neptune, tambm conhecido como Ataque TCP SYN ood, explora a im-
plementao do protocolo TCP/IP. Quando um servidor recebe uma mensagem SYN
reservado recursos, conexo meio aberta, para atender esta requisio e uma mensagem
SYN-ACK retornada ao cliente. O cliente, ento, recebe a mensagem SYN-ACK e
responde enviando uma mensagem ACK para o servidor. Quando o servidor recebe a
mensagem ACK a conexo estabelecida completamente e os dois computadores podem
comear a transmitir informaes. No entanto, a tabela que o servidor usa para manter as
conexes meio abertas possui tamanho nito e pode ser explorada pelo atacante. Quando
o servidor recebe muitos pedidos de conexes, mensagens SYN, a tabela de conexes
meio abertas sobrecarregada e o servidor no consegue estabelecer novas conexes en-
quanto a tabela estiver cheia. Normalmente h timeouts associados a cada conexo meio
aberta da tabela, contudo, se o atacante mantiver esta tabela constantemente cheia, o ata-
que bem sucedido (HUANG; THAREJA; SHIN, 2006).
Crashiis (RED, 1998) um ataque em que enviado uma url muito grande para um
servidor Microsoft IIS derrubando-o. Embora a vulnerabilidade que permitia o ataque j
tenha sido corrigida, o ataque est presente na base DARPA 99.
No ataque PoD (ping of death) (POD, 1998) so enviados pings malformados para
um computador. Historicamente muitos sistemas no conseguiam processar pacotes ping
maiores que 65,535 bytes e podiam parar de funcionar. Atualmente, no entanto esse
94
problema est solucionado.
SATAN (Security Administrator Tool for Analyzing Networks) (SATAN, 2010) uma
ferramenta usada para escanear vulnerabilidades em uma rede de computadores. Nor-
malmente a ferramenta usada por administradores de sistema, mas tambm usada por
atacantes.
O ataque Portsweep (DARPA, 1999) faz uma varredura de portas para determinar os
servios rodando em um computador. Essa informao til para um atacante que est a
procura de mquinas vulnerveis.
6.1.2 Preparao dos dados para os experimentos
Como os dados da base DARPA 99 esto no formato bruto foi preciso extrair as infor-
maes desejadas para uso nesse trabalho. As informaes foram coletadas na forma de
contadores por meio de amostragem de determinada varivel (descritor) em um intervalo
de amostragem pr-denido, formando uma srie de contadores ordenados no tempo.
Foram selecionados os seguintes descritores: nmero total de pacotes e nmero de
pacotes dos protocolos de rede, TCP, UDP e ICMP, todos extrados na sada do servidor
agrupados em intervalos de amostragem de 5 segundos. O tempo mdio aproximado de
um ataque, que foi observado na base de dados do DARPA, de 10 segundos, ento
escolheu-se o intervalo de amostragem de 5 segundo de modo que o ataque fosse visvel.
Como os dados estavam no formato do TCPDUMP (TCPDUMP, 1998), para extrao
dos descritores, usou-se a ferramenta TCPSTAT (TCPSTAT, 1998), conforme o exemplo:
tcpstat -r outside.tcpdump -o "%Tn"5 > w1-d1-out-5-tcp.data
Neste exemplo so gerados os contadores referente ao trfego TCP com intervalo de
5 segundos para o primeiro dia da primeira semana. Aps todos os contadores referentes
a todos os dias das trs primeiras semanas de trfego so concatenados em um nico ar-
quivo. Aps a gerao conforme as variveis selecionadas os contadores estavam prontos
para o uso nos testes de deteco.
6.2 Denio da Funo de Normalizao
Nesta Seo so analisadas algumas caractersticas estatsticas dos coecientes da
transformada wavelet do trfego de rede. O objetivo determinar a funo para a nor-
malizao dos coecientes wavelets (raiz quadrada ou logaritmo) a ser usado no DIbW.
Inicialmente preciso denir algumas medidas estatsticas que foram usadas: a m-
dia, o desvio padro, a obliquidade e a curtose. O desvio padro denido como a raiz
95
quadrada do valor mdio do quadrado da distncia entre cada valor e a mdia. calcu-
lado conforme a frmula (4.14). A obliquidade (JOANES; GILL, 1998) a medida da
assimetria de uma determinada distribuio de probabilidade de uma varivel aleatria.
denida conforme:
g
1
=
1
n
n
i=1
(x
i
)
3
(
1
n
n
i=1
(x
i
)
2
)
3
2
. (6.1)
Na frmula (6.1 x
i
representa cada coeciente do conjunto de entrada e a sua mdia.
Umvalor negativo para a obliquidade g
1
indica que a distribuio temuma cauda esquerda
(valores abaixo da mdia) mais pesada. Um valor positivo indica que a distribuio tem
uma cauda direita (valores acima da mdia) mais pesada. A obliquidade igual a zero
indica distribuio de probabilidade aproximadamente simtrica.
A curtose (JOANES; GILL, 1998) mede o grau de achatamento de uma distribuio
de probabilidade de uma varivel aleatria, ou o quanto uma curva de frequncia ser
achatada em relao a uma curva normal. denida conforme:
g
2
=
1
n
n
i=1
(x
i
)
4
(
1
n
n
i=1
(x
i
)
2
)
2
3 . (6.2)
Se o valor da curtose g
2
for igual a zero, ento tem o mesmo achatamento que a dis-
tribuio normal (mesocrtica). Se o valor da curtose for menor do que zero ento a
distribuio mais concentrada que a distribuio normal (leptocrtica). Se o valor da
curtose for maior que zero, ento a funo de distribuio mais achatada que a distribui-
o normal (platicrtica).
Usaram-se as medidas estatsticas denidas: mdia, desvio padro, obliquidade e cur-
tose, para avaliar as caractersticas estatsticas do trfego de rede padro (sem ataques).
Para isso, escolheu-se a primeira a semana de trfego padro (sem ataques) do DARPA
99 para analisar as caractersticas estatsticas do trfego de rede e dos coecientes da
Transformada Wavelet. Usou-se o trfego de rede sem ataques para melhor analisar suas
caractersticas e congurar o DIbW conforme o trfego padro. Os dados do trfego de
rede correspondentes ao nmero total de pacotes coletados em intervalos de 5 segundos,
preparados conforme a Seo 6.1.2, foram transformados usando a wavelet Daubechies
D8. O trfego original e os coecientes wavelet foram ento analisados. Como obser-
vado na Figura 6.1, mesmo o trfego de rede padro apresenta alta variabilidade que
capturada pelos coecientes wavelet (detalhes) em todos os nveis da transformada.
Na Figura 6.1 esto representados o trfego de rede original e os coecientes da trans-
formada wavelet. O trfego de rede original (A) consiste nos 5 primeiros dias da primeira
96
Figura 6.1: Transformada wavelet do trfego de rede - Trfego original (A) e coecientes
wavelet (detalhes), d
1
(B), d
2
(C), d
3
(D). O trfego de rede apresenta alta variabilidade
representada pelas curvas no suveis, caracterizadas por picos, nos coecientes wavelet
(detalhes) em todos os nveis da transformada.
semana de dados da base da DARPA. A srie de dados consiste na contagem do nmero
total de pacotes na entrada do roteador da rede, amostrados a cada 5 segundos, totalizando
65536 pontos de amostragem (327680 segundos ou aproximadamente 91 horas). Na srie
de dados do trfego de rede original (65536 pontos) foi aplicada a transformada wavelet
discreta direta usando a base Daubechies D8. Na Figura 6.1 tambm esto representados
os coecientes da transformada wavelet (detalhes) referente aos 3 primeiros nveis, d
1
(B), d
2
(C), d
3
(D).
Como pode ser observado pela Figura 6.1 o trfego original (A) apresenta como ca-
racterstica alta variabilidade, curva no suave constituda quase que exclusivamente por
97
Tabela 6.2: Estatsticas dos coecientes wavelet do trfego de rede padro.
Coeciente Mdia Desvio Padro Obliquidade Curtose
y 94.98 141.86 2.79 14.24
d
1
-0.13 102.28 0.01 11.52
d
2
-1.44 118.30 0.01 6.84
d
3
-0.95 123.38 0.18 8.85
d
4
1.54 136.18 0.20 5.95
d
5
3.76 145.66 0.48 5.65
d
6
1.54 150.88 -0.21 5.2
picos. Tambm, os coecientes wavelet (detalhes) apresentam alta variabilidade em todos
os nveis da transformada.
Na Tabela 6.2 so apresentados algumas medidas estatsticas para a transformada wa-
velet do trfego de rede padro. A Tabela mostra que os coecientes wavelet (detalhes)
apresentam mdia muito pequena, prxima de zero, em comparao com o desvio pa-
dro. A obliquidade prxima de zero para os coecientes wavelet (detalhes) indica que os
valores so distribudos praticamente de forma simtrica em relao mdia. A curtose
acima de zero para o sinal original, y, e para os coecientes wavelet (detalhes), d
1
, d
2
,
d
3
, d
4
, d
5
, d
6
, indica a presena de vrios valores altos (picos) em comparao com uma
distribuio normal como referncia.
Dos dados conclui-se que os coecientes wavelet (detalhes) da transformada wavelet
para o trfego de rede padro apresentammdia prxima de zero e so simetricamente dis-
tribudos em relao mdia. Estas duas caractersticas so importantes para a denio
de uma estratgia para a denio de margens (Threshold). Como a mdia prxima de
zero pode-se dispensar uma normalizao em relao mdia e o desvio padro torna-se
a principal medida estatstica da amostra. Sabendo-se que os valores dos coecientes so
distribudos praticamente de forma simtrica em relao mdia a denio de margens
(threshold) simplicada, pois o mesmo valor em mdulo pode ser utilizado para a mar-
gem inferior e a margem superior. Por outro lado a curtose acima de zero indica grande
variabilidade com vrios picos em relao a distribuio normal, tpica de distribuies
de probabilidade com cauda longa, o que diculta no clculo da margem.
Na Tabela 6.3 so apresentados as caractersticas dos coecientes wavelet (detalhes)
aps a normalizao usando Transformada Logartmica e na Tabela 6.4 so apresentados
as caractersticas dos coecientes wavelet (detalhes) aps a normalizao usando Trans-
formada Raiz Quadrada.
Os coecientes wavelet aps a aplicao da operao Raiz Quadrada possuem caracte-
rsticas mais prximas a uma distribuio de probabilidade normal, conforme observado
98
Tabela 6.3: Estatsticas dos coecientes wavelet (detalhes) da transformada wavelet do
trfego de rede padro aps a Transformada Logartmica.
d
1
-0.12 3.40 0.08 -1.23
d
2
-0.13 3.71 0.07 -1.41
d
3
-0.10 3.67 0.05 -1.41
d
4
-0.04 3.76 0.04 -1.42
d
5
-0.03 3.81 0.04 -1.42
d
6
0.09 3.85 -0.04 -1.44
Tabela 6.4: Estatsticas dos coecientes wavelet (detalhes) da transformada wavelet do
trfego de rede padro aps a Transformada Raiz Quadrada.
d
1
-0.16 7.62 0.09 0.10
d
2
-0.23 8.60 0.07 -0.44
d
3
-0.17 8.52 0.06 -0.11
d
4
0.00 8.98 0.05 -0.16
d
5
0.04 9.30 0.12 -0.16
d
6
0.19 9.49 -0.05 -0.19
pelos indicadores da obliquidade e da curtose prximos de zero. A partir dessa cons-
tatao escolhe-se a funo raiz quadrada como mtodo a ser usado no mecanismo de
deteco para a normalizao dos coecientes.
Para encontrar o valor do Threshold deniu-se empiricamente a constante C = 4
baseando-se na Tabela 4.1 da Seo 4.2.5. O tamanho da janela de observao ser deter-
minado conforme os testes de deteco.
6.3 Testes de Deteco
Os SDI baseados em assinaturas procuram por ataques correspondentes s assinaturas
em sua base de dados, e por denio so capazes de detectar apenas ataques conhecidos.
Os SDI baseados em anomalias, porm, so potencialmente capazes de detectar ataques
desconhecidos. Para avaliar os algoritmos baseados em anomalias, entretanto, h uma
impossibilidade de se gerar ataques desconhecidos. Dessa forma os algoritmos baseados
em anomalias so usualmente testados com tipos de ataques conhecidos, sendo que o al-
goritmo de deteco no tem nenhum conhecimento prvio sobre o ataque (MAHONEY;
CHAN, 2003).
Nesta Seo so descritos alguns experimentos com o DIbW realizados com o obje-
tivo de testar a capacidade de deteco de anomalias do mecanismo de deteco. Devido a
impossibilidade de se testar a capacidade de deteco de anomalias ou ataques desconhe-
99
cidos, testa-se a capacidade do sistema em detectar ataques conhecidos e documentados
na base DARPA 99.
Na avaliao de desempenho do mecanismo proposto so considerados a quantidade
de Verdadeiros Positivos (VP), Falsos Positivos (FP), Verdadeiros Negativos (VN) e Fal-
sos Negativos (FN) gerados pelo sistema. Resumidamente, as possibilidades de classi-
cao dos eventos gerados so apresentados na Tabela de Contingncia ou Matriz de
Confuso (QIN, 2005) (Tabela 6.5).
Situao Real
positivo negativo
Atribudo pelo SDI
positivo VP FP
negativo FN VN
Tabela 6.5: Matriz de Confuso. Fonte: adaptado de (QIN, 2005)
Considerando-se o nmero total de Positivos como P = VP + FN (corresponde ao
nmero total de ataques realmente presentes) e o nmero total de Negativos como N =
VN + FP (corresponde ao nmero total de amostras sem ataques), tem-se:
Denio 6.3.1. A Taxa de Verdadeiros Positivos (TVP %) ou taxa de deteco igual
ao nmero de Verdadeiros Positivos divido pelo nmero de Positivos. TVP = (VP / P) *
100.
Denio 6.3.2. A Taxa de Falsos Positivos (TFP %) igual ao nmero de Falsos Positi-
vos dividido pelo nmero de Negativos. TFP = (FP / N) * 100.
Para a realizao dos testes de deteco usaram-se os dados de trfego de rede base
DARPA 99 selecionados conforme a Seo 6.1.1. A partir dos dados brutos da base foram
gerados contadores, conforme a Seo 6.1.2, considerando-se: o nmero total de pacotes,
nmero de pacotes TCP, nmero de pacotes UDP e nmero de pacotes ICMP. Usou-se
uma taxa de amostragem de 5 segundos (t = 5 s), tambm usada nos trabalhos em
(DAINOTTI; PESCAPE; VENTRE, 2006) e (LU; TAVALLAEE; GHORBANI, 2008)
que fazem a extrao dos descritores (contadores) de rede de forma semelhante.
Oobjetivo dos testes avaliar o comportamento do DIbWna anlise de trfego de rede
na presena de ataques. O sistema deve se adaptar aos dados analisados e gerar um alarme
quando uma anomalia for encontrada. Como cada tipo de ataque possui caractersticas
distintas, perceptveis usando-se descritores de trfego especcos, e a presena de uma
anomalia no caracteriza necessariamente um ataque, cada alarme gerado pelo sistema
precisa ser analisado separadamente.
100
Durante os testes, a primeira, segunda e terceira semanas de trfego foram agrupadas
sequencialmente, porm apenas a segunda semana de trfego, que possui ataques docu-
mentados, foi avaliada. Os contadores esto na forma de uma srie de amostras orga-
nizadas sequencialmente conforme o timestamp (tempo) e armazenados em um arquivo.
Para os testes o sistema l os contadores sequencialmente do arquivo correspondente ao
descritor desejado e submete ao mecanismo de anlise. Aps o processamento e gerao
de alarmes pelo mecanismo, os alarmes foram avaliados usando-se a documentao da
base.
6.3.1 Estudo de caso 1 - Trfego IP
Para este experimento foram usados os contadores correspondentes ao nmero total
de pacotes IP (Internet Protocol) (SOCOLOFSKY; KALE, 1991) coletados com intervalo
de amostragem de 5 segundos, referentes a segunda semana de trfego da base DARPA
99. As wavelets usadas foram a Daubechies D8, D4 e D2. Para a normalizao dos
coecientes foi usada a funo Raiz Quadrada, pois esta se mostrou mais adequada, do
ponto de vista estatstico conforme a Seo 6.2. Para o clculo do valor do threshold usou-
se o desvio padro dos coecientes wavelet (detalhes) e a constante C = 4 conforme a
Tabela 4.1.
A Figura 6.2 (A) apresenta o sinal formado a partir do descritor de trfego de rede
correspondente ao total de pacotes IP trafegados a cada 5 segundos. No segundo grco
(B) esto representados os alarmes gerados pelo DIbW usando uma janela de deteco de
tamanho 128 e wavelet D8.
Nos grcos (Figura 6.2) (A) e (B) os dados esto ordenados no tempo, cada posi-
o equivale a uma amostra de aproximadamente 77000 amostras. Em relao aos dados
originais cada amostra equivale a 5 segundos. No grco dos alarmes (B) esto represen-
tados os alarmes gerados pelo sistema, sendo que cada alarme equivale a uma anomalia
de trfego detectada. Dessa forma o grco (A) representa a entrada do mecanismo de
deteco de anomalias e o grco (B) a sada aps o processamento. No grco do sinal
original (A) duas anomalias (neste caso picos com grande intensidade) so visveis, as
demais no so identicveis apenas pelo grco. Cada alarme gerado pelo sistema foi
vericado com a documentao da base para contagem de erros e acertos.
A Figura 6.3 representa os trs primeiros nveis de coecientes wavelet (detalhes), d
1
(A), d
2
(B) e d
3
(C), aps a normalizao usando a funo Raiz Quadrada, com os res-
pectivos valores de threshold. Os grcos (A) (B) e (C) referem-se aos dados de entrada
usados pela funo de gerao de alarmes (Algoritmo 4.1) e o grco (D) representa a
101
Figura 6.2: Trfego de rede (A), corresponde ao total de pacotes IP capturados a cada
5 segundos, e os alarmes (B) gerados pelo DIbW. As setas (A) indicam a localizao os
ataques.
sada, ou seja, os alarmes gerados.
Os coecientes wavelet (Figura 6.3) (A) (B) (C) aps a normalizao usando a funo
Raiz Quadrada descrevem curvas mais suaves. A funo para clculo do threshold para
cada nvel consegue se adaptar curva dos coecientes wavelet, de modo que apenas coe-
cientes anmalos ultrapassem em valor o threshold. Caso o valor de determinado coe-
ciente wavelet em qualquer nvel ultrapasse o respectivo valor do threshold, um alarme
gerado pelo sistema para aquela posio em relao ao tempo. Para o clculo do threshold
a constante C = 4 foi escolhida empiricamente, porm baseando-se na Tabela 4.1.
Em relao ao trfego original (Figura 6.2) (A), variaes abruptas do sinal foram de-
tectadas nos primeiros nveis de detalhes da transformada (Figura 6.4) (B), enquanto que
variaes mais suaves, mas ainda anmalas foram detectadas nos nveis maiores (nveis
mais grosseiros) (Figura 6.6) (C).
Na Figura 6.4 (A) est representada uma poro do trfego de rede (nmero de paco-
tes) contendo um ataque do tipo satan. O ataque gerou uma alterao abrupta no nmero
de pacotes trafegados. A alterao (anomalia) gerada pelo ataque foi capturada pelos co-
102
Figura 6.3: Coecientes wavelet (detalhes) d
1
, d
2
e d
3
e os respectivos valores de Th-
reshold.
ecientes wavelet (detalhes) no primeiro nvel d
1
(B). Em (B) os coecientes wavelet do
nvel d
1
foram normalizados usando a raiz quadrada. Como o valor dos coecientes ul-
trapassaram o valor do threshold um alarme foi gerado para aquela posio (D). O valor
do threshold adapta-se conforme a variao dos coecientes wavelet (B).
Na Figura 6.5 (A) est representado outro ataque do tipo satan. Neste caso a anomalia
gerada pelo ataque foi detectada no primeiro e segundo nveis de coecientes wavelet (B)
(C), gerando alarmes (D). Para ns de avaliao apenas um alarme foi considerado pois
referem-se ao mesmo evento.
Na Figura 6.6 (A) est representado um ataque do tipo crashiis. Este tipo de ataque
gerou uma alterao de trfego menos acentuada e mais suave quanto um ataque do tipo
satan. O ataque foi corretamente detectado no segundo nvel wavelet d
2
(C).
Falsos positivos ocorreram em posies nos dados de entrada em que houve variao
brusca no trfego e o sistema gerou um alarme (Figura 6.7). O alarme gerado indica a
ocorrncia de uma anomalia nos dados, porm no havia ataque documentado na base
para aquela posio, o que se caracteriza um falso positivo. Para a varivel analisada,
103
Figura 6.4: Ataque do tipo Satan (A) detectado no primeiro nvel d
1
(B) dos coecientes
wavelet, gerando um alarme (C).
neste caso o trfego IP total, no percebeu-se diferena na forma da curva gerada por um
ataque ou por um falso positivo, apenas na intensidade. O padro da curva do trfego de
um modo geral bastante varivel e com vrios picos e variaes. Vale ressaltar que o
sistema procura por anomalias, ento quando um alarme gerado signica que h uma
anomalia no padro dos dados, porm nem sempre est relacionado a um ataque, sendo
muitas vezes variaes normais do trfego.
Na Figura 6.7 est representada uma poro de trfego de rede onde o sistema detectou
uma anomalia, e consequentemente gerou um alarme. Porm como no h nenhum ataque
associado ao evento, trata-se de um falso positivo. Comparando-se visualmente um falso
positivo (Figura 6.7) (A) assemelha-se a um ataque de mdia intensidade (Figura 6.5) (A).
Na Tabela 6.6 esto os resultados da deteco de ataques pelo DIbW na base do
DARPA 99 usando o trfego total na segunda semana. Em todos os testes o nmero
total de amostras foi de 77077 pontos. Foram usadas as wavelets D8, D4 e D2, com tama-
nhos de janela de 64, 128 e 256 pontos. Alarmes consecutivos foram considerados, para
a avaliao, como um nico alarme.
104
Figura 6.5: Ataque do tipo satan (A) detectado no primeiro e segundo nveis, d
1
(B) e d
2
(C) dos coecientes wavelet, gerando alarmes (D).
Tabela 6.6: Resultados da anlise de todos os pacotes do trfego de rede.
Wavelet Tam. Jan. Verdadeiros P. Falsos P. Ataques detectados
D8 64 2 0 satan
D8 128 4 3 satan, crashiis
D4 64 2 3 satan
D2 64 2 3 satan
OTamanho da Janela de Deteco inuenciou nos resultados emrelao ao nmero de
deteces e falsos positivos. Usando-se 128 pontos como tamanho da janela de deteco
105
Figura 6.6: Ataque do tipo crashiis (A) detectado no segundo nvel d
2
(C) dos coecientes
wavelet, gerando dois alarmes consecutivos (D).
obteve-se o melhor resultado considerando o nmero de deteces e o menor nmero de
falsos positivos. Quando usou-se uma janela de deteco de tamanho igual a 64 pontos o
sistema identicou menos ataques devido quantidade reduzida de dados na janela para
anlise. Por outro lado quando usou-se uma janela de deteco de tamanho igual a 256
pontos o sistema apresentou uma quantidade maior de falsos positivos. A quantidade
maior de falsos positivos deve-se a demora maior do sistema em se adaptar s oscilaes
normais do trfego de rede.
Usando-se as funes wavelet D2, D4 e D8 no se percebeu variao signicativa
quanto ao nmero de deteces, apenas uma pequena variao quanto ao nmero de falsos
positivos. O melhor caso foi observado usando-se a wavelet D8 e uma janela de deteco
de tamanho 128 (Tabela 6.6).
Embora a quantidade de amostras com ataques seja pequena, o sistema apresentou um
106
Figura 6.7: Falso Positivo, oscilao normal do trfego que porm gerou um alarme.
desempenho satisfatrio. No melhor caso (Tabela 6.7), com uma de tamanho 128 e funo
wavelet D8, o DIbW identicou corretamente 4 ataques, dos tipos: satan e crashiis. Neste
caso apenas 3 falsos positivos foram gerados pelo sistema.
Tabela 6.7: Ataques detectados usando o trfego total, janela de tamanho 128 e wavelet
D8.
Ataque Total Ataques T. Ataques Detectados
satan 2 2
crashiis 3 2
Foram detectados corretamente pelo sistema 2 ataques do tipo satan, de 2 presentes,
ou seja 100% de acerto para este ataque. SATAN (Security Administrator Tool for Analy-
zing Networks) (SATAN, 2010) uma ferramenta usada para escanear vulnerabilidades
em uma rede de computadores. No trfego da base o ataque satan gerou picos com inten-
107
sidade maior de trfego. Nos experimentos o ataque cou visvel nos primeiros nveis de
detalhes da transformada wavelet do trfego.
Crashiis (RED, 1998) um ataque em que enviado uma url muito grande para um
servidor Microsoft IIS derrubando-o. Na base de dados o ataque crashiis causou uma
pequena variao no volume de trfego. O problema na identicao deste ataque deve-
se justamente a essa variao de pequena intensidade que ele causa no trfego. O sistema
detectou 2 ataques do tipo crashiis, dos 3 presentes. Oprimeiro foi identicado no perodo
noturno e de pouco trfego total. O segundo foi detectado no incio do trfego diurno onde
ocorreu uma elevao pequena, porm brusca, do volume de pacotes. O terceiro ataque
no foi detectado pois estava em um perodo com oscilaes normais do trfego, o que
mascarou o ataque.
Os falsos positivos foram gerados em perodos em que ocorreram alteraes de mdia
intensidade no padro do trfego. Embora tratam-se de anomalias de trfego, como no
esto associadas a nenhum ataque documentado foram consideradas como falsos positi-
vos. Visualmente essas anomalias so indistinguveis de ataques de mdia intensidade.
Embora o sistema identicou poucos ataques usando o trfego total, o nmero de fal-
sos positivos gerados foi baixo, apenas 3 em mais de 77000 amostras. Por outro lado,
para tipos especcos de ataques o sistema identicou corretamente quase todos os ata-
ques, ou seja, 2 do tipo satan, de 2 presentes, e 2 ataques do tipo crashiis, de 3 presentes
(Tabela 6.7). O baixo nmero de falsos positivos deve-se ao fato da transformada wavelet
e do threshold usados ajustarem-se adequadamente ao padro do trfego de rede.
6.3.2 Estudo de caso 2 - Trfego TCP
Neste experimento foram gerados, a partir da base DARPA 99, contadores apenas
para o trfego de rede correspondente ao protocolo TCP (Transmission Control Proto-
col) (POSTEL, 1981a). Usaram-se os mesmos parmetros do experimento com o trfego
IP (Seo 6.3.1), intervalo de amostragem de 5 segundos, base wavelet Daubechies D8,
normalizao dos coecientes wavelet usando a Raiz Quadrada e C = 4. Foram usados
tamanhos de janela de deteco de 64, 128 e 256 pontos.
Na Figura 6.8 est representado o sinal formado a partir do descritor de trfego de
rede correspondente aos pacotes TCP trafegados a cada 5 segundos. No segundo grco
est representado os alarmes gerados pelo DIbW.
DARPA 99 usando o trfego TCP.
108
Figura 6.8: Trfego de rede correspondente aos pacotes do protocolo TCP (A) capturados
a cada 5 segundos e os alarmes gerados pelo DIBW (B).
Tabela 6.8: Resultados da anlise dos os pacotes TCP do trfego de rede.
Tam. Jan. Verdadeiros P. Falsos P. Ataques detectados
64 2 1 satan
128 2 2 satan
256 2 9 satan
Tabela 6.9: Ataques detectados usando o trfego do protocolo TCP, janela de tamanho
128 e wavelet D8.
satan 2 2
Quando considerou-se apenas os pacotes do protocolo TCP, com a janela de deteco
de tamanho 128, o sistema foi capaz de detectar 2 ataques presentes (Tabela 6.8). Por
outro lado, neste caso foi gerado apenas 2 falsos positivos pelo sistema.
109
6.3.3 Estudo de caso 3 - Trfego UDP
Neste experimento foram gerados contadores apenas para o trfego de rede corres-
pondente ao protocolo UDP (User Datagram Protocol) (POSTEL, 1980). Usaram-se os
mesmos parmetros do experimento com o trfego IP (Seo 6.3.1), intervalo de amostra-
gem de 5 segundos, base wavelet Daubechies D8, normalizao dos coecientes wavelet
usando a Raiz Quadrada e C = 4. O tamanho para a janela de deteco usado foi de 128
pontos.
Na Figura 6.9 (A) est representado o sinal formado a partir do descritor de trfego de
rede correspondente aos pacotes UDP trafegados a cada 5 segundos. No segundo grco
(B) esto representados os alarmes gerados pelo DIbW.
Figura 6.9: Trfego de rede correspondente aos pacotes do protocolo UDP capturados a
cada 5 segundos (A) e os alarmes gerados pelo DIBW (B).
DARPA 99 usando o trfego UDP.
110
Tabela 6.10: Resultados da anlise dos os pacotes UDP do trfego de rede.
64 4 2 portsweep, mailbomb, crashiis
Tabela 6.11: Ataques detectados usando o trfego do protocolo UDP, janela de tamanho
128 e wavelet D8.
portsweep 2 1
crashiis 3 2
mailbomb 2 2
Considerando-se apenas os pacotes do protocolo UDP, com a janela de deteco de
tamanho 128, o sistema detectou todos os ataques do tipo portsweep e mailbomb e quase
todos os ataques do tipo crashiis (Tabela 6.10). O nmero de falsos positivos gerados foi
pequeno.
6.3.4 Estudo de caso 4 - Trfego ICMP
Neste experimento foram gerados contadores apenas para o trfego de rede corres-
pondente ao protocolo ICMP (Internet Control Message Protocol) (POSTEL, 1981b).
Usaram-se os mesmos parmetros do experimento com o trfego IP (Seo 6.3.1), in-
tervalo de amostragem de 5 segundos, base wavelet Daubechies D8, normalizao dos
coecientes wavelet usando a Raiz Quadrada e C = 4. O tamanho para a janela de
deteco usado foi de 128 pontos.
Na Figura 6.10 (A) est representado o sinal formado a partir do descritor de trfego
de rede correspondente aos pacotes ICMP trafegados a cada 5 segundos. No grco (B)
esto representados os alarmes gerados pelo DIbW.
DARPA 99 usando o trfego ICMP.
Tabela 6.12: Resultados da anlise dos os pacotes ICMP do trfego de rede.
64 4 0 pod, satan, portsweep
128 6 4 pod, satan, portsweep, neptune
256 6 5 pod, satan, portsweep, neptune
O trfego de pacotes do protocolo ICMP, presente na base, mais irregular do que
o trfego dos outros protocolos. O sistema conseguiu identicar variaes no padro de
111
Figura 6.10: Trfego de rede correspondente aos pacotes do protocolo ICMP capturados
a cada 5 segundos (A) e os alarmes gerados pelo DIbW (B).
trfego (anomalias) deste protocolo, porm algumas dessas anomalias no eram devido a
ataques. Vrios ataques foram identicados, porm como o padro de trfego natural-
mente irregular, alguns falsos positivos foram gerados (Tabela 6.12).
Tabela 6.13: Ataques detectados usando o trfego do protocolo ICMP, janela de tamanho
128 e wavelet D8.
pod 2 2
satan 2 2
portsweep 2 1
neptune 2 1
Usando-se uma janela de deteco de tamanho 128 como contadores do trfego ICMP,
o sistema detectou corretamente todos os ataques do tipo pod e satan e a metade dos
ataques do tipo portsweep e neptune (Tabela 6.13).
Considerando-se todos os descritores de trfego simultaneamente: IP, TCP, UDP,
ICMP, o sistema detectou 11 dos 13 ataques analisados (85%) (Tabela 6.15). O nmero
de falsos positivos foi baixo, 12 em 77077 amostras (0,015%). Diferentes descritores de
112
trfego permitiram a deteco de diferentes tipos de ataques (Tabela 6.14).
Tabela 6.14: Ataques detectados usando diferentes descritores de trfego de rede, janela
de tamanho 128 e wavelet D8.
Ataque Total Ataques IP TCP UDP ICMP
satan 2 2 2 - 2
crashiis 3 2 - 2 -
portsweep 2 - - 1 1
mailbomb 2 - - 2 -
pod 2 - - - 2
neptune 2 - - - 1
Tabela 6.15: Resultado da anlise de todos os descritores: IP, TCP, UDP e ICMP com
janela de tamanho 128 e wavelet D8.
Tam. Janela T. Amostras T. Ataques VP FP FN TVP% TFP%
128 77077 13 11 12 2 85% 0,015%
De modo geral, a deteco de ataques de rede inuenciada pela especicidade das
variveis selecionadas. Nestes experimentos foram considerados ataques que geram per-
turbao nos descritores de trfego analisados: IP, TCP, UDP e ICMP. Para os ataques
analisados o sistema alcanou boa taxa de deteco, em vrios casos todos os ataques
de um tipo especco foram detectados. Os falsos positivos gerados pelo sistema foram
devido a mudanas normais no trfego que assemelham-se a ataques. Vale lembrar que
o trfego de rede naturalmente irregular. No entanto, o nmero de falsos positivos foi
baixo.
Comparaes com os trabalhos relacionados quando ao desempenho na deteco de
ataques uma tarefa difcil devido ao uso diverso dos dados de entrada e de diferentes
metodologias de obteno de dados empregados em cada trabalho.
No trabalho em (DAINOTTI; PESCAPE; VENTRE, 2006) os autores propuseram
um mecanismo de deteco de anomalias de rede que combina uma abordagem baseada
no mtodo CUSUM e EWMA com uma abordagem baseada na Transformada Wavelet
Continua (TWC), wavelet de Morlet, com o objetivo de detectar anomalias de volume de
trfego de rede causadas por ataques do tipo DoS. Usando dados prprios e a DARPA
99, os autores reportaram uma Taxa de Acertos mdia de 87 % de ataques do tipo DoS,
enquanto que a Taxa de Erros mdia cou em 38 % em relao ao total de alarmes. Os
autores deniram a Taxa de Acertos como : nmero de verdadeiros positivos / nm. de
amostras X 100; e a Taxa de Erros como: nmero de falsos positivos / total de alarmes X
100. No entanto, a comparao dos trabalhos no precisa pois, apesar da base (DARPA
113
99) e o intervalo de amostragem (t = 5 s) usados serem os mesmos usados aqui, os
autores relatam usarem simulaes de ataques, o que diferencia os testes.
No trabalho em (LU; TAVALLAEE; GHORBANI, 2008) os autores propuseram uma
abordagem para deteco de anomalias de rede baseada na Transformada Wavelet Dis-
creta e sries auto-regressivas do tipo ARX. Na abordagem, as sries de dados so trans-
formadas em um conjunto de coecientes wavelet, usando-se TWD, em seguida os co-
ecientes so aproximados o modelo ARX e ento o resduo da predio usado para
a deteco de anomalias utilizado o GMM (Gaussian Mixture Model), buscando a iden-
ticao de outliers. No trabalho foi usada a dados da base KDDCUP 99, derivada da
DARPA 99, onde foram selecionadas quinze variveis descritivas de trfego, usando-se o
modelo de agregao por uxos origem-destino. Considerando-se apenas o melhor caso,
a base Wavelet Daubechies1
2
(Haar), a abordagem corretamente identicou 7 de 10 ti-
pos de ataques DoS presentes. Os autores usaram apenas os dados do primeiro dia da
quinta semana da base DARPA 99 e no informaram o nmero de falsas deteces.
No trabalho em (GAO et al., 2006), os autores usaram a Transformada Wavelet Packet
(TWP) e a reconstruo do sinal a partir dos coecientes wavelet para cada nvel sele-
cionado da transformada. Medidas estatsticas, como mdia e varincia, foram usadas
para caracterizar uma anomalia, como a razo da mdia ou da varincia entre a janela de
deteco e a janela histrica foram mensuradas e comparadas com valores de threshold
predenidos para identicar uma anomalia. O sinal reconstrudo para cada nvel usado
para a deteco de anomalias. Os autores usaram dados prprios mesclados com simula-
es.
No trabalho em (KIM; REDDY, 2008) foi usada uma funo, denida no trabalho,
que calcula a correlao dos endereos IP de origem e destino dos pacotes trafegados
para a gerao dos dados de entrada do detector. As funes wavelet so usadas para
decompor o sinal e reconstruir conforme os nveis desejados. A deteco feita sobre
o sinal reconstrudo. Os autores usaram para avaliao dados prprios juntamente com
dados simulados, o que inviabilizou comparaes de resultados.
6.4 Anlise de desempenho
Para analisar o desempenho do DIbW em relao ao tempo de execuo, foram reali-
zados testes, nos quais uma sequncia de amostras (srie) do trfego de rede foi submetida
ao sistema e coletado o tempo de execuo. O objetivo dos testes vericar a possibi-
2
Nomenclatura alternativa para a base Daubechies D2 ou Haar
114
lidade de uso da ferramenta proposta em anlises e deteco de anomalias de trfego de
rede em tempo real (on line). Os experimentos foram realizados no seguinte ambiente:
Computador com processador Intel Core 2 Duo modelo T7300 2.0 GHz, memria
DDR2 de 2 GB e disco rgido interface Sata de 250 GB;
Sistema Operacional Microsoft Windows Vista 32 bits;
Mquina Virtual Java SDK (Software Development Kit) verso 1.6.05.
No primeiro experimento, foi submetido ao DIbW uma sequncia de amostras (srie)
de trfego de rede correspondente as trs primeiras da base de dados DARPA 99. Os
contadores foram gerados selecionando-se o nmero de pacotes total de pacotes de rede
trafegados a cada intervalo de 5 segundos. Neste experimento foram avaliados o tempo
de execuo considerando-se diversas conguraes para o tamanho da janela de obser-
vao e funo wavelet. Foram usadas janelas de observao de tamanhos de 64, 128 e
256 pontos estas foram usadas nos testes de deteco, sendo que uma janela de 128 pon-
tos mostrou resultados melhores quanto ao numero de deteces e falsos positivos. As
funes wavelet usadas so da famlia Daubechies (DAUBECHIES, 1992): Daubechies
2 (D2 ou Haar), Daubechies 4 (D4), Daubechies 6 (D6) e Daubechies 8 (D8). Para a
normalizao dos coecientes wavelet (detalhes) foi usada a funo Raiz Quadrada.
Tabela 6.16: Teste de desempenho do DIbW. Uma sequncia de amostras (230608 amos-
tras) de trfego de rede foi submetida ao sistema para cada congurao (tamanho da
janela de observao e base wavelet) e foi avaliado o tempo total de execuo e calculado
o tempo por amostra.
Wavelet Tam. Jan. Tempo Total (s) Tempo Mdio (s)
D8 256 5.866 0.25437105390966490
D8 128 3.229 0.14002116145146742
D8 64 1.872 0.08117671546520502
D6 256 5.616 0.24353014639561507
D6 128 3.042 0.13191216263095817
D6 64 1.762 0.07640671615902310
D4 256 5.070 0.21985360438493026
D4 128 2.886 0.12514743634219108
D4 64 1.732 0.07510580725733712
D2 256 4.961 0.21512696870880454
D2 128 2.745 0.11903316450426699
D2 64 1.669 0.07237389856379657
A Tabela 6.16 sumariza os principais resultados. O tamanho total da srie de entrada
de 230608 amostras. Para cada tamanho da janela de observao e funo wavelet foi
115
submetida ao sistema a mesma srie e registrado o tempo total de execuo (emsegundos).
O tempo mdio de execuo de cada amostra (em microssegundos) corresponde ao tempo
total de execuo dividido pelo nmero total de amostras (230608). Para cada amostra o
sistema realiza o processo de anlise e gerao de alarme conforme o Algoritmo 4.1 da
Seo 4.2.
Figura 6.11: Tempo de processamento de 230608 amostras de trfego de rede usando as
funes wavelet D2, D4, D6 e D8 com tamanhos de janela de 64, 128 ou 256 pontos.
Na Figura 6.11 est representado o grco com as comparaes dos tempos totais de
execuo das 230608 amostras de trfego de rede pelo DIbW. O tempo de processamento
foi inuenciado principalmente pelo tamanho da janela de observao. Quanto maior o
tamanho da janela de observao mais dados o sistema precisa analisar a cada execuo. O
uso de diferentes funes wavelet, D2, D4, D6 ou D8, no inuenciou signicativamente
o tempo de processamento. Como a funo wavelet no apresentou impacto signicativo
no tempo de processamento do mecanismo, pode-se escolher a wavelet que melhor se
adapta aos dados. Nos testes de deteco a wavelet D8 apresentou resultados ligeiramente
superiores.
Para os tamanhos de janela de observao e funes wavelet testadas, o mecanismo
proposto apresentou baixo custo computacional. Para cada amostra o tempo de execuo
mdio cou em fraes de microssegundos (Tabela 6.16). Considerando um intervalo
de amostragem de 5 segundos na coleta, o sistema consegue processar os dados sem
comprometer o desempenho. O atraso na deteco de uma anomalia devido analise dos
116
dados o tempo de processamento (fraes de microssegundos). Na prtica, o atraso
na deteco do sistema depende tambm do mdulo de coleta, porm no superior ao
intervalo de amostragem do mdulo.
Neste Captulo foi analisado o mecanismo de deteco de anomalias do DIbW quanto
capacidade de deteco de ataques e o desempenho computacional. Nos testes usou-
se a base de dados DARPA 99 por possuir trfego de rede real, ataques conhecidos e
documentados.
Inicialmente foram analisados estatisticamente os coecientes da transformada wave-
let. Aplicando-se a operao Raiz Quadrada, os coecientes wavelet (detalhes) apresen-
taram caractersticas mais prximas de uma distribuio normal. Dessa forma, escolhe-se
a raiz quadrada para a normalizao dos coecientes no mecanismo de deteco. O th-
reshold calculado conforme o desvio padro dos coecientes wavelet e uma tabela de
probabilidade para uma distribuio normal.
Para avaliar a performance na deteco de ataques usou-se a segunda semana de tr-
fego de dados da DARPA 99 que possui ataques rotulados. Foram gerados descritores
para os protocolos: IP, TCP, UDP e ICMP, com intervalo de amostragem de 5 segundos.
Usando-se a janela de observao de tamanho 128 e a wavelet D8 obteve-se os melhores
resultados quanto ao nmero de deteces e falsos positivos. Diferentes descritores de
trfego permitiram a deteco de diferentes tipos de ataques, em alguns casos todos os
ataques de um tipo especco foram detectados. Na mdia o sistema detectou 85% dos
ataques com 0,015% de falsos positivos. O mecanismo de deteco mostrou-se adequado
para a deteco de ataques que geram alteraes (anomalias) no padro de trfego de
um descritor de trfego de rede. Considerando-se que o trfego de rede natualmente
irregular, a quantidade de falsos positivos foi baixa.
Na avaliao de desempenho computacional foram usadas as trs semanas (com ata-
ques e sem ataques) de trfego da DARPA 99. Os descritores de trfego foram inseridos
sequencialmente e o foi coletado o tempo de processamento. Para as janelas de deteco
de tamanhos 64, 128 e 256, com wavelets Haar, D4 ou D8, o tempo de processamento
(em fraes de microssegundos para cada amostra) no comprometeu o desempenho do
sistema. Como foi usado um intervalo de amostragem de 5 segundos o mecanismo pode
ser usada para analises em tempo real.
7 CONCLUSES
Este trabalho explorou a rea de deteco de intruso em redes de computadores
usando a abordagem baseada em anomalias. A deteco de anomalias em redes de com-
putadores uma rea de estudo bastante ativa e normalmente preocupa-se coma ecincia
dos mtodos e com problema dos falsos positivos. Neste contexto, o uso da Transformada
Wavelet mostrou-se vivel para a deteco de anomalias de rede devido a capacidade de
anlise em multirresoluo. No entanto, os mtodos empregados muitas vezes no so
adequados para a anlise em tempo real, devido a complexidade computacional envol-
vida, o que acaba por limitar tais solues.
A complexidade das redes de computadores, devido quantidade de dispositivos co-
nectados, a variedade de protocolos e servios, volume elevado de trfego, bem como,
caractersticas intrnsecas do trfego padro, dicultam a coleta, anlise e deteco de
anomalias. Na Deteco de Anomalias de Rede, o mtodo de anlise de vital impor-
tncia pois impacta diretamente no desempenho e ecincia do detector. A abordagem
em tempo real, ainda, apresenta alguns desaos, por precisar de resposta a um determi-
nado evento suspeito em tempo reduzido. Consequentemente, o mecanismo de deteco
precisa ser eciente para permitir tempos de resposta reduzidos.
Neste sentido, este trabalho props um novo mecanismo para a deteco de anoma-
lias de rede baseada na Transformada Wavelet Discreta. O mtodo mostrou-se eciente
computacionalmente e adequado para anlises em tempo real. Por meio da anlise dos
descritores do trfego de rede, busca-se identicar anomalias de trfego, considerando-se
anomalias como possveis Intruses.
O mecanismo de deteco de anomalias proposto consiste na amostragem de descri-
tores de rede, na gerao de um sinal para anlise usando uma janela deslizante, na trans-
formao do sinal com wavelets discretas ortonormais de Daubechies, na normalizao
dos coecientes wavelet (detalhes), no clculo do valor do threshold baseado no desvio
padro dos coecientes e conforme uma tabela de probabilidades da distribuio normal,
118
e por m na deteco de anomalias conforme o threshold diretamente nos coecientes
wavelet (detalhes).
Como os coecientes wavelet no seguem uma distribuio normal, a operao Raiz
Quadrada mostrou-se adequada estatisticamente para a normalizao. Esta caracterstica
foi usada para o clculo do threshold. Usou-se uma janela de observao deslizante de
tamanho 64, 128 ou 256 e as wavelets de Haar, D4 e D8. A janela de observao de tama-
nho 128 e a funo wavelet D8 apresentaram os melhores resultados quanto ao nmero
de deteces e falsos positivos.
Na anlise de desempenho na deteco de anomalias o mecanismo proposto apre-
sentou bom desempenho em relao ao nmero de ataques detectados com poucos falsos
positivos. Diferentemente das abordagens tradicionais, no entanto, o mecanismo proposto
apresenta um esquema de deteco simplicado. As anomalias de rede so detectadas nos
coecientes wavelet, eliminando-se a necessidade da transformada wavelet inversa ou de
outras etapas de processamento. Esta abordagem possui baixa complexidade computaci-
onal, e mostrou-se eciente em termos de deteco e tempo de execuo, permitindo o
seu uso em anlises em tempo real. Alm disso, o mtodo genrico e pode trabalhar
com diferentes descritores do trfego de rede. As principais contribuies deste trabalho
so proposio do mecanismo de deteco de anomalias de rede destinado a anlise em
tempo real e a demonstrao de sua capacidade de deteco de ataques de rede.
7.1 Principais Contribuies
Este trabalho inova ao explorar a ecincia computacional no projeto do mecanismo
de deteco de anomalias de rede, como requisito para a anlise de trfego em tempo real,
e contribui ao propor um novo mtodo de deteco baseado na Transformada Wavelet. As
principais contribuies deste trabalho so:
A proposio de um novo mecanismo de deteco de anomalias de rede baseado
na Transformada Wavelet Discreta. O mecanismo de deteco usa amostragens de
um descritor de rede genrico, possui um projeto eciente computacionalmente e
capaz de detectar anomalias de trfego de rede;
Apresentar a construo de framework genrico e expansvel para deteco de ano-
malias de rede usando a abordagem proposta; e
Demostrar a capacidade de deteco de anomalias do mecanismo proposto e a e-
cincia computacional do mtodo, na forma de testes de desempenho.
119
No entanto, este trabalho possui algumas limitaes, como a base de dados usada. A
base do DARPA 99, apesar de j desatualizada, ainda bastante usada e possui ataques
documentados e possibilitou a realizao de avaliaes quanto a capacidade de deteco
do mecanismo proposto.
7.2 Trabalhos Futuros
A deteco de anomalias de rede uma rea de pesquisa bastante ativa com constante
desenvolvimento de novas ferramentas e aplicao de novas tcnicas. Este trabalho repre-
senta uma pequena contribuio para a deteco de anomalias em redes de computadores.
Como tema para trabalhos futuros sugere-se a pesquisa quanto a seleo de variveis
para anlise. A escolha das variveis e a criao de variveis derivadas ainda fracamente
explorada na literatura quanto ao impacto na deteco de anomalias. O sistema proposto
neste trabalho pode ser usado para a anlise de diversas variveis simultaneamente, per-
mitindo a identicao de diferentes formas de anomalias de rede.
120
REFERNCIAS
ABDOLLAH, M. F.; YAACOB, A. H.; SAHIB, S.; ISMAIL MOHAMAD, M. F. I. Re-
vealing the Inuence of Feature Selection for Fast Attack Detection. IJCSNS Internati-
onal Journal of Computer Science and Network Security, [S.l.], v.8, n.8, p.107115,
aug 2008.
BARFORD, P.; KLINE, J.; PLONKA, D.; RON, A. A signal analysis of network trafc
anomalies. In: ACM SIGCOMM WORKSHOP ON INTERNET MEASURMENT, IMW
2002, 2., 2002, New York, NY, USA. Anais. . . ACM, 2002. p.7182.
BASSEVILLE, M.; NIKIFOROV, I. V. Detection of abrupt changes: theory and appli-
cation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 1993.
BOLZONI, D. Revisiting anomaly-based network intrusion detection systems. 2009.
Tese (Doutorado) University of Twente (Netherlands).
BORGNAT, P.; DEWAELE, G.; FUKUDA, K.; ABRY, P.; CHO, K. Seven Years and One
Day Sketching the Evolution of Internet Trafc. Infocom 2009, [S.l.], 2008.
BRO. Bro Intrusion Detection System. Disponvel em: http://www.bro-ids.org/, ltimo
acesso em dezembro de 2009.
CHENG, X.; XIE, K.; WANG, D. Network Trafc Anomaly Detection Based on Self-
Similarity Using HHT and Wavelet Transform. In: INFORMATION ASSURANCE
ANDSECURITY, 2009. IAS 09. FIFTHINTERNATIONAL CONFERENCE ON, 2009.
Anais. . . [S.l.: s.n.], 2009. v.1, p.710713.
CHOU, T. S.; YEN, K. K.; LUO, J. Network Intrusion Detection Design Using Feature
Selection of Soft Computing Paradigms. International Journal of Computational In-
telligence, [S.l.], v.4, n.3, 2008.
121
COIFMAN, R. R.; WICKERHAUSER, M. V. Entropy-Based Algorithms For Best Basis
Selection. IEEE Transactions on Information Theory, [S.l.], v.38, p.713718, 1992.
DAINOTTI, A.; PESCAPE, A.; VENTRE, G. NIS04-1: wavelet-based detection of
dos attacks. In: GLOBAL TELECOMMUNICATIONS CONFERENCE, 2006. GLO-
BECOM 06. IEEE, 2006. Anais. . . [S.l.: s.n.], 2006. p.16.
DARPA. Defense Advanced Research Projects Agency. disponvel em:
http://www.ll.mit.edu/IST/ideval/index.html. ltimo acesso em outubro de 2008.
DAUBECHIES, I. Ten Lectures on Wavelets. [S.l.]: SIAM, 1992. n.61. (CBMS/NSF
Series in Applied Math.).
DENNING, D. E. An intrusion-detection model. IEEE Transaction on Software Engi-
neering, [S.l.], v.13, n.2, p.222232, 1987.
DONOHO, D. L.; JOHNSTONE, I. M. De-noising by soft-thresholding. IEEE Transac-
tions on Information Theory, [S.l.], v.41, n.3, p.613627, 1995.
FARRAPOSO, S. Contributions on detection and classication of internet trafc ano-
malies. 2009. Tese (Doutorado) Universit Paul Sabatier - Toulouse III. 09414.
FIELDING, R.; GETTYS, J.; MOGUL, J.; FRYSTYK, H.; MASINTER, L.; LEACH, P.;
BERNERS-LEE, T. Hypertext Transfer Protocol HTTP/1.1. Updated by RFC 2817,
RFC 2616 (Draft Standard).
GAO, J.; HU, G.; YAO, X.; CHANG, R. Anomaly Detection of Network Trafc Based on
Wavelet Packet. In: ASIA-PACIFIC CONFERENCE ON COMMUNICATIONS, 2006.
Anais. . . [S.l.: s.n.], 2006.
GARCA-TEODORO, P.; DAZ-VERDEJO, J.; MACI-FERNNDEZ, G.; VZQUEZ,
E. Anomaly-based network intrusion detection: techniques, systems and challenges.
Computers and Security, [S.l.], v.28, n.1-2, p.1828, 2009.
GHALI, N. I. Feature Selection for Effective Anomaly-Based Intrusion Detection.
IJCSNS International Journal of Computer Science and Network Security, [S.l.],
v.9, n.3, 2009.
GIBILISCO, S. Statistics Demystied. 1.ed. [S.l.]: McGraw-Hill Professional, 2004.
122
GNUPLOT. gnuplot homepage. Disponvel em: http://www.gnuplot.info/, ltimo acesso
em janeiro de 2010.
GOUD, P. A.; BINULAL, G.; K.P, S. Simplied Method of Designing Daubechies Wa-
velets in Class Room. International Journal of Recent Trends in Engineering, [S.l.],
v.1, n.4, 2009.
GUANGMIN, L. Modeling Unknown Web Attacks in Network Anomaly Detection. In:
THIRD INTERNATIONAL CONFERENCE ON CONVERGENCE AND HYBRID IN-
FORMATION TECHNOLOGY 2008, ICCIT 08, 2008. Anais. . . [S.l.: s.n.], 2008. v.2,
p.112116.
HARRINGTON, D.; PRESUHN, R.; WIJNEN, B. An Architecture for Describing Sim-
ple Network Management Protocol (SNMP) Management Frameworks. Updated by
RFCs 5343, 5590, RFC 3411 (Standard).
HETTICH, S.; BAY, S. D. The UCI KDD Archive. Irvine, CA: University of California,
Department of Information and Computer Science.disponvel em: http://kdd.ics.uci.edu.
ltimo acesso em outubro de 2009.
HUANG, C.-T.; THAREJA, S.; SHIN, Y.-J. Wavelet-based Real Time Detection of
Network Trafc Anomalies. In: SECURECOMM AND WORKSHOPS 2006, 2006.
Anais. . . [S.l.: s.n.], 2006. p.17.
JANSEN, M. Wavelet Thresholding and Noise Reduction. 2000. Tese (Doutorado)
Katholieke Universiteit Leuven. Faculteit Toegepaste Wetenschappen.
JAVA. JAVA Technology. Disponvel em: http://java.sun.com/, ltimo acesso em janeiro
de 2010.
JOANES, D. N.; GILL, C. A. Comparing measures of sample skewness and kurtosis.
Journal of the Royal Statistical Society (Series D): The Statistician, University of
Leeds, UK, v.47, n.1, p.183189, 1998.
KIM, S. S.; REDDY, A. L. N. Statistical techniques for detecting trafc anomalies through
packet header data. IEEE/ACM Transaction on Networking, Piscataway, NJ, USA,
v.16, n.3, p.562575, 2008.
KIZZA, J. M. Computer Network Security. New York, NY: Springer, 2005.
KLENSIN, J. Simple Mail Transfer Protocol. 2008, RFC 5321 (Draft Standard).
123
KRUEGEL, C.; VIGNA, G. Anomaly detection of web-based attacks. In: ACM CON-
FERENCE ON COMPUTER AND COMMUNICATIONS SECURITY, CCS 2003, 10.,
2003, New York, NY, USA. Anais. . . ACM, 2003. p.251261.
LELAND, W. E.; TAQQU, M. S.; WILLINGER, W.; WILSON, D. V. On the self-similar
nature of Ethernet trafc (extended version). IEEE/ACM Transaction on Network, Pis-
cataway, NJ, USA, v.2, n.1, p.115, 1994.
LI, L.; LEE, G. DDoS attack detection and wavelets. In: INTERNATIONAL CON-
FERENCE ON COMPUTER COMMUNICATIONS AND NETWORKS 2003, ICCCN
2003, 12., 2003. Anais. . . [S.l.: s.n.], 2003. p.421427.
LI, Y.; FANG, B.-X. A Lightweight Online Network Anomaly Detection Scheme
Based on Data Mining Methods. In: IEEE INTERNATIONAL CONFERENCE ON
NETWORK PROTOCOLS 2007, ICNP 2007, 2007. Anais. . . [S.l.: s.n.], 2007. p.340
341.
LIU, T.; QI, A.; HOU, Y.; CHANG, X. Method for network anomaly detection based
on Bayesian statistical model with time slicing. In: WORLD CONGRESS ON INTEL-
LIGENT CONTROL AND AUTOMATION 2008, WCICA 2008, 7., 2008. Anais. . .
[S.l.: s.n.], 2008. p.33593362.
LONGCHUPOLE, S.; MANEERAT, N.; VARAKULSIRIPUNTH, R. Anomaly detection
through packet header data. In: INFORMATION, COMMUNICATIONS AND SIGNAL
PROCESSING, 2009. ICICS 2009. 7TH INTERNATIONAL CONFERENCE ON, 2009.
Anais. . . [S.l.: s.n.], 2009. p.14.
LU, W.; TAVALLAEE, M.; GHORBANI, A. Detecting Network Anomalies Using Dif-
ferent Wavelet Basis Functions. In: COMMUNICATION NETWORKS AND SERVI-
CES RESEARCH CONFERENCE 2008, CNSR 2008 6TH ANNUAL, 2008. Anais. . .
[S.l.: s.n.], 2008. p.149156.
MAFRA, P. M.; FRAGA, J. S.; MOLL, V.; SANTIN, A. O. POLVO-IIDS, Um Sistema
de Deteco de Intruso Inteligente Baseado em Anomalias. In: VIII SIMPSIO BRASI-
LEIRO EM SEGURANA DA INFORMAO E DE SISTEMAS COMPUTACIONAIS
(SBSEG 2008), 2008. Anais. . . [S.l.: s.n.], 2008. p.201214.
MAHONEY, M. V.; CHAN, P. K. An Analysis of the 1999 DARPA/Lincoln Laboratory
Evaluation Data for Network Anomaly Detection. In: SIXTH INTERNATIONAL SYM-
124
POSIUM ON RECENT ADVANCES IN INTRUSION DETECTION, 2003. Anais. . .
Springer-Verlag, 2003. p.220237.
MALLAT, S. G. A theory for multiresolution signal decomposition: the wavelet represen-
tation. IEEE Transactions on Pattern Analysis and Machine Intelligence, [S.l.], v.11,
p.674693, 1989.
MALLAT, S. G. A wavelet tour of signal processing. [S.l.]: Academic Press, 1998.
NETBEANS. NetBeans. Disponvel em: http://www.netbeans.org/, ltimo acesso em ja-
neiro de 2010.
NIELSEN, O. M. Wavelets in scientic computing. 1998. Tese (Doutorado) Infor-
matics and Mathematical Modelling, Technical University of Denmark, DTU, Richard
Petersens Plads, Building 321, DK-2800 Kgs. Lyngby.
NORTHCUTT, S.; NOVAK, J. Network Intrusion Detection, Third Edition. [S.l.]:
New Riders Publishing, 2002.
ONUT, I.-V.; GHORBANI, A. A. A Feature Classication Scheme For Network Intrusion
Detection. International Journal of Network Security, [S.l.], v.5, n.1, p.115, 2007.
PENG, T.; LECKIE, C.; RAMAMOHANARAO, K. Survey of network-based defense
mechanisms countering the DoS and DDoS problems. ACMComputer Surv., NewYork,
NY, USA, v.39, n.1, p.3, 2007.
PLONKA, D.; BARFORD, P. Network anomaly conrmation, diagnosis and remedi-
ation. In: COMMUNICATION, CONTROL, AND COMPUTING, 2009. ALLERTON
2009. 47TH ANNUAL ALLERTON CONFERENCE ON, 2009. Anais. . . [S.l.: s.n.],
2009. p.128 135.
POD. CERT Advisory CA-1996-26 Denial-of-Service Attack via ping. Disponvel em:
http://www.cert.org/advisories/CA-1996-26.html, ltimo acesso em janeiro de 2010.
POSTEL, J. User Datagram Protocol. [S.l.]: IETF, 1980. n.768. (Request for Com-
ments).
POSTEL, J. Transmission Control Protocol. Updated by RFCs 1122, 3168, RFC 793
(Standard) 1981.
125
POSTEL, J. Internet Control Message Protocol. Updated by RFCs 950, 4884, RFC 792
(Standard) 1981.
POSTEL, J.; REYNOLDS, J. File Transfer Protocol. Updated by RFCs 2228, 2640,
2773, 3659, RFC 959 (Standard) 1985.
PRESUHN, R. Management Information Base (MIB) for the Simple Network Mana-
gement Protocol (SNMP). 2002, RFC 3418 (Standard).
QIN, Z.-C. ROC Analysis for Predictions made by Probabilistic Classiers. In: FOURTH
INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNE-
TICS, 2005. Anais. . . [S.l.: s.n.], 2005.
RED, C. Code Red Worm Crashes IIS 4.0 Servers with URL Redirection Enabled.
Disponvel em: http://www.cert.org/incidentnotes/IN-2001-10.html, ltimo acesso em ja-
neiro de 2010.
ROHANI, M.; MAAROF, M.; SELAMAT, A.; KETTANI, H. LoSS Detection Appro-
ach Based on ESOSS and ASOSS Models. In: FOURTH INTERNATIONAL CONFE-
RENCE ON INFORMATION ASSURANCE AND SECURITY 2008, ISIAS 08, 2008.
Anais. . . [S.l.: s.n.], 2008. p.192197.
S SILVA, L. de. Uma Metodologia para Deteco de Ataques de Redes baseada
em redes Neurais. 2008. Tese (Doutorado) Instituto Nacional de Pesquisas Espaci-
ais (INPE), So Jos dos Campos, SP, Brasil.
SAKIA, R. M. The Box-Cox Transformation Technique: a review. Journal of the Royal
Statistical Society. Series D (The Statistician), [S.l.], v.41, n.2, p.169178, 1992.
SAMAAN, N.; KARMOUCH, A. Network anomaly diagnosis via statistical analysis and
evidential reasoning. Network and Service Management, IEEETransactions on, [S.l.],
v.5, n.2, p.6577, jun 2008.
SATAN. SATAN (Security Administrator Tool for Analyzing Networks). Disponvel
em: http://www.porcupine.org/satan/, ltimo acesso em janeiro de 2010.
SCHERRER, A.; LARRIEU, N.; OWEZARSKI, P.; BORGNAT, P.; ABRY, P. Non-
Gaussian and Long Memory Statistical Characterizations for Internet Trafc with Ano-
malies. IEEE Transactions on Dependable and Secure Computing, [S.l.], v.4, n.1,
p.5670, jan 2007.
126
SELVAKANI, S.; RAJESH, R. Genetic Algorithm for framing rules for intrusion De-
tection. International Journal of Computer Science and Network Security, IJCSNS,
[S.l.], v.7, n.11, nov 2007.
SNORT. Snort. Disponvel em: http://www.snort.org/, ltimo acesso em dezembro de
2009.
SOCOLOFSKY, T.; KALE, C. TCP/IP tutorial. 1991, RFC 1180 (Informational).
SOULE, A.; SALAMATIAN, K.; TAFT, N. Combining ltering and statistical methods
for anomaly detection. In: IMC 05 PROCEEDINGS OF THE 5TH ACM SIG-
COMM CONFERENCE ON INTERNET MEASUREMENT, 2005, Berkeley, CA, USA.
Anais. . . USENIX Association, 2005. p.3131.
STOEV, S.; TAQQU, M. S.; PARK, C.; MARRON, J. S. On the wavelet spectrum di-
agnostic for Hurst parameter estimation in the analysis of Internet trafc. Computer
Networking, New York, NY, USA, v.48, n.3, p.423445, 2005.
TCPDUMP. TCPDUMP/LIBPCAP public repository. Disponvel em:
http://www.tcpdump.org/, ltimo acesso em dezembro de 2009.
TCPSTAT. tcpstat Home Page. Disponvel em: http://www.frenchfries.net/paul/tcpstat/,
ltimo acesso em dezembro de 2009.
THOTTAN, M.; JI, C. Anomaly detection in IP networks. IEEE Transactions on Signal
Processing, [S.l.], v.51, n.8, p.21912204, Aug. 2003.
T.LACHMAN; A.P.MEMON; T.R.MOHAMAD; Z.A.MEMON. Detection of Power
Quality Disturbances Using Wavelet Transform Technique. International Journal for
the Advancement of Science and Arts, [S.l.], v.1, n.1, p.177185, 2010.
WANG, X.; REN, Y.; SHAN, X. WDRLS: a wavelet-based on-line predictor for network
trafc. In: IEEE GLOBAL TELECOMMUNICATIONS CONFERENCE 2003, GLOBE-
COM 2003, 2003. Anais. . . [S.l.: s.n.], 2003. v.7, p.40344038.
WEISSTEIN, E. W. Autocorrelation. From MathWorldA Wolfram Web Resource.
Disponvel em: http://mathworld.wolfram.com/Autocorrelation.html, ltimo acesso em
fevereiro de 2010.
WILF, H. S. Algorithms and complexity. Upper Saddle River, NJ, USA: Prentice-Hall,
Inc., 1994. Disponvel em: http://www/cis.upenn.edu/wilf.
127
WU, Q.; SHAO, Z. Network Anomaly Detection Using Time Series Analysis. In: JOINT
INTERNATIONAL CONFERENCE ON AUTONOMIC AND AUTONOMOUS SYS-
TEMS AND INTERNATIONAL CONFERENCE ON NETWORKING AND SERVI-
CES 2005, ICAS-ICNS 2005, 2005. Anais. . . [S.l.: s.n.], 2005. p.4242.
XIA, H.; XU, W. Research on Method of Network Abnormal Detection Based on Hurst
Parameter Estimation. In: INTERNATIONAL CONFERENCE ON COMPUTER SCI-
ENCE AND SOFTWARE ENGINEERING 2008, 2008. Anais. . . [S.l.: s.n.], 2008. v.3,
p.559562.
YAO, L.; ZHITANG, L.; SHUYU, L. A Fuzzy Anomaly Detection Algorithm for IPv6.
In: SECOND INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE
AND GRID 2006, SKG 06, 2006. Anais. . . [S.l.: s.n.], 2006. p.6767.
ZAMAN, S.; KARRAY, F. Features selection for intrusion detection systems based on
support vector machines. In: CCNC09: PROCEEDINGS OF THE 6TH IEEE CON-
FERENCE ON CONSUMER COMMUNICATIONS AND NETWORKING CONFE-
RENCE, 2009, Piscataway, NJ, USA. Anais. . . IEEE Press, 2009. p.10661073.
ZARPELO, B. B.; MENDES, L. S.; ABRO, T.; SAMPAIO, L. D. H.; LIMA, M. F.;
JR., M. L. P. Deteco de Anomalias em Redes de Computadores. In: XXVII SIMPSIO
BRASILEIRO DE TELECOMUNICAES - SBRT 2009, 2009. Anais. . . [S.l.: s.n.],
2009.
ZHANG, X.-Q.; GU, C.-H. CH-SVM Based Network Anomaly Detection. In: MA-
CHINE LEARNING AND CYBERNETICS, 2007 INTERNATIONAL CONFERENCE
ON, 2007. Anais. . . [S.l.: s.n.], 2007. v.6, p.3261 3266.
ZHANG, Y.; HAN, Z. guo; REN, J. xia. A Network Anomaly Detection Method Based
on Relative Entropy Theory. In: ELECTRONIC COMMERCE AND SECURITY, 2009.
ISECS 09. SECOND INTERNATIONAL SYMPOSIUM ON, 2009. Anais. . . [S.l.: s.n.],
2009. v.1, p.231235.

Perlin, Tiago

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Perlin, Tiago

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE SANTA MARIA

Operao de corte dos coecientes (Threshold)

quando , 0 < < 1,

quando , 0 < < 1,

r() < , (2.4)

y(t)(t k)dt (3.38)

2 e pela relao (3.28) h

Você também pode gostar