Você está na página 1de 73

DETECÇÃO DE FALHAS EM REDES

DE ESCOAMENTO ATRAVÉS DA
ANÁLISE DE COMPONENTES
PRINCIPAIS

Carlos André Vaz Junior


Introdução

Os desafios...

Detectar
Se ocorreu....

Identificar a falha
O que ocorreu...

Localizar
Onde ocorreu...

Quantificar
Qual a gravidade do que
ocorreu...
Anomalias estudadas
Implementação de falhas

Falha de sensor Vazamento


Metodologia
Panorama geral

SPE: square prediction error


Spca: similarity PCA
Sdist: distance similarity factor
SVI: índice de validade do sensor
• Metodologias
a)PCA
Metodologia PCA

Autovetor associado ao maior autovalor

R1

R2
Metodologia PCA
Falha em sensor
Falha em sensor
Falha em sensor
Falha em sensor
Metodologia PCA

Matriz de dados (X)


Matriz de variância e covariância (VC)

VC = cov ( X )

[16x16] [251x16]

[V,D] = eig (VC)

Autovetores (V)
Autovalores (V)
[16x16]
Metodologia PCA

Caminho 1:
Matriz de componentes principais (MC):
Uma vez os autovetores ordenados a partir
dos respectivos autovalores associados,
procede-se a seleção dos n-componentes
principais e a montagem da matriz.

[16x16] 2
[16x8]

[251x16]
[251x16]

Dados Dados
reconstruídos originais

Mesma dimensão final!!


Metodologia PCA

Caminho 1: Exemplo
[2x2] [2x1]

[251x2]
[251x2]

Dados Dados
reconstruídos originais

O “Caminho 1” leva direto aos dados reconstruídos!


Metodologia PCA

Caminho 2:
Matriz de componentes principais (MC):
Uma vez os autovetores ordenados a partir
dos respectivos autovalores associados,
procede-se a seleção dos n-componentes
principais e a montagem da matriz.

[2x850] 2
[16x8] [850x16]

PCAdataCol=MC’*Dados’
PCAdata=PCAdataCol’
[850x2]

Dados representados no Dados


sistema de coordenadas originais
dos dois componentes principais
Metodologia PCA

Caminho 2:

[2x850] 2
[16x8] [850x16]

PCAdataCol=MC’*Dados’
PCAdata=PCAdataCol’
[850x2]

DadosModCol=MC*PCAdataCol’
[16x850] DadosMod = DadosModCol’

[850x16]

Dados
Dados originais
reconstruídos
Metodologia PCA

Caminho 2: Exemplo
PCAdata:

O “Caminho 2” permite parar nos dados representados usando


os eixos dos componentes principais.
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
1ª Técnica de detecção de anomalias

Detecta-se falha quando o erro de previsão do modelo


extrapola os limites do intervalo de confiança:

T’ T’’
1ª Técnica de detecção de anomalias

Q: (somatório quadrático dos erros)

[251x1]

SPE:
Representa o erro quadrático da previsão (square prediction error).

O parâmetro SPE é o somatório do erro ponderado com o tempo. Ou seja, cria-se um


“efeito memória” onde erros no passado tem maior ou menor influência sobre o valor de
SPE mais recente. Tal ponderação é efetuada através do parâmetro lambda. Quanto mais
próximo do valor unitário lambda encontra-se, menor a influência do passado, sendo SPE
função principalmente dos valores mais recentes. Por outro lado, quanto mais próximo de
zero o valor de lambda se encontra, maior a influência do passado sobre o valor atual de
SPE.
1ª Técnica de detecção de anomalias

Resultado sem ocorrência de falha:

6 dp

1 dp
1ª Técnica de detecção de anomalias

Resultado com ocorrência de falha:


2ª Técnica de detecção de anomalias

Baseia-se também na comparação das fases A e B,


agora através da aplicação de índices de “simetria” ou
“similaridade”.

T’ T’
2ª Técnica de detecção de anomalias

Spca: A similaridade entre os dois grupos de dados é quantificada através da comparação


de seus componentes principais. Mais precisamente, o Spca compara os subespaços
gerados por cada modelo PCA através do cálculo do ângulo entre os componentes
principais. O fator de similaridade Spca é influenciado pela orientação espacial do
subespaço gerado pelos componentes principais.

Onde teta é o ângulo formado entre o “i-ésimo” componente principal do primeiro


conjunto de dados e o “j-ésimo” componente principal do segundo conjunto.

Na prática, porém, tendo-se as matrizes (MC A e MCB) compostas pelos “k”


componentes principais que descrevem os conjuntos de dados, torna-se mais simples
calcular Spca na sua forma matricial:
2ª Técnica de detecção de anomalias

Sdist:

Enquanto o fator de similaridade Spca é influenciado pela orientação espacial do subespaço


gerado pelos componentes principais, o fator Sdist (ou “distance similarity factor”) é usado
para situações onde os conjuntos de dados têm orientação espacial similar, mas estão
localizados em posições distantes. O fator Sdist é a probabilidade que o centro do conjunto
de dados H ( x H ) esteja ao menos a distância  do centro dos dados B (x S ). Calcula-se Sdist
através da equação abaixo:

Pseudo inversa da matriz de


covariância dos dados S

Vetor linha com a média dos dados de cada sensor


2ª Técnica de detecção de anomalias

SF:

O fator Sdist provê complemento as propriedades apresentadas pelo Spca, sendo natural
seu uso combinado. A junção dos dois fatores é denominada SF, e permite comparar os
conjuntos de dados tanto em relação à orientação de seus subespaços quanto a distancia
entre eles. A média ponderada é calculada pela equação:
2ª Técnica de detecção de anomalias

Abordagem estática: Abordagem dinâmica:


• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
Classificação hierárquica

Com anomalia Sem anomalia

Dados brutos
Classificação hierárquica

A similaridade entre dois pontos pode ser entendida como sendo inversamente
proporcional a distância espacial entre esses pontos.

Para um espaço vetorial genérico de dimensão “n” (R n), a distância entre um


ponto “i” e outro “j” pode ser definida como:

Distância Euclidiana Distância City Block Distância Minkowski

(r = 2) (r = 1) r=3 e 4
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
d) Identificação da origem da anomalia
Índice de validade dos sensores

SVI-D:

A metodologia aplicada na identificação do sensor em falha utiliza os “índices de validade dos


sensores” – SVI, descritos por Dunia et al [1996]. Foi usado o índice SVI-D, cujo cálculo é
apresentado abaixo. O valor de SVI varia entre 0 e 1, sendo 1 indicativo de máxima confiança
no correto funcionamento do sensor. Deste modo, os sensores que apresentam menores SVI são
os principais suspeitos de estarem apresentando falha.

Dados experimentais Dados reconstruídos pelo modelo


Di = D(:,i)
D = D(:,i)
[16x16]

Cii = C(i,i)
Resíduo total (todos os sensores)

Participação relativa de cada sensor no resíduo


Protótipos

www.prevention.indiana.edu

falha de 2% no
sinal do sensor 16
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
d) Identificação da origem da anomalia
e) Quantificação da anomalia
Classificação Hierárquica

Dados brutos

Severidade
da anomalia

d
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
d) Identificação da origem da anomalia
e) Quantificação da anomalia
f) Definir o tipo de anomalia
Definir o tipo de anomalia

Sdist vs Spca: Sdist

Spca

SVI-D + PCA:

Falha de sensor Vazamento

Protótipos + Classificação Hierárquica:


>> whos CURSO
Name Size Bytes Class Attributes

CURSO 66x11 1452 char


>> whos NOTAS
Name Size Bytes Class Attributes

NOTAS 66x8 4224 double


>> MIN

MIN =

0.0600 0.0600 0 0 2.7700 2.0000 2.0000 5.0400

>> MAX

MAX =

3.9300 4.3600 1.1100 48.0000 97.0000 7.0000 7.0000 9.8400

>> whos X1 X2 X3 X4 X
Name Size Bytes Class Attributes

X 66x8 4224 double


X1 66x1 528 double
X2 66x1 528 double
X3 66x1 528 double
X4 66x1 528 double
XMedio =

0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368


>> EE >> percE

EE = percE =

0.2861 68.8564
0.0653 15.7177
0.0259 6.2445
0.0148 3.5687
0.0111 2.6778
0.0087 2.1021
0.0032 0.7741
0.0002 0.0588
L= IL =

0.0002 1
0.0032 2
0.0087 3
0.0111 4
0.0148 5
0.0259 6
0.0653 7
0.2861 8
>> percE

percE =

68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ... 0.0588
... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368)

XMedio =

0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368


S1

S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ...
... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368)
>> percE

percE =

68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
0.0588
S2=-0.5049(X1-0.31168)-0.4742(X2-0.32086)+0.4565(X3-0.2113)+0.2967(X4-0.11027)+ ...
... -0.3949(X5-0.60135)+0.1895(X6-0.4818)+0.1786(X7-0. 4333)-0.0041 (X8-0.6368)

XMedio =

0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368


S2=-0.5049(X1-0.31168)-0.4742(X2-0.32086)+0.4565(X3-0.2113)+0.2967(X4-0.11027)+ ...
... -0.3949(X5-0.60135)+0.1895(X6-0.4818)+0.1786(X7-0. 4333)-0.0041 (X8-0.6368)
Dados plotados usando os valores calculados de S1
e S2. As cores referem-se as notas do CA.
Dados plotados usando os dois componentes principais
(caminho 2). As cores referem-se as notas do CA.
Perguntas feitas para crianças:
Componentes Principais:
1º componente 2º componente 3º componente
principal principal principal
1º componente 2º componente 3º componente
principal principal principal
8 variáveis

autovalores
Variação explicada
Meço o valor de Componente 1, 2 e 3 para cada criança.
O maior coeficiente indica a classificação da criança.

1º componente 2º componente 3º componente


principal principal principal
8 variáveis

Nome fictício em função dos coeficientes mais importantes. Cada criança vai ser
classificada com um desses nomes.
Perguntas feitas para os pais:
Perguntas feitas para os pais:
Perguntas feitas para os pais:
Perguntas feitas para os pais:
Tal pai, tal filho:

Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)

Fator 1 = 1 : indica que o número de pais que a parcela de pais com filhos tipo 1
que respondem YES é igual a parcela de pais total que diz YES. Ou seja, o tipo
de filho e a resposta do pais não parecem correlacionadas.
Tal pai, tal filho:

Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)

Fator 1 = 1.20 : indica que o número de pais que responderam NO é 20%


superior ao normal da população. Ou seja, filhos tipo 1 tendem a ter 20%
mais chance de terem pais que NÃO controlam o que ou quanto eles comem.
Tal pai, tal filho:

Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)

Fator 1 = 0.71 : indica que o número de pais que responderam YES é 40%
superior ao normal da população. Ou seja, filhos tipo 1 tendem a ter 40%
mais chance de terem pais que controlam o que ou quanto eles comem.

0.71 * X = 1
X = 1.40
Tal pai, tal filho:

Você também pode gostar