Aula Pca04

DETECÇÃO DE FALHAS EM REDES
DE ESCOAMENTO ATRAVÉS DA
ANÁLISE DE COMPONENTES
PRINCIPAIS
Carlos André Vaz Junior

Introdução
Os desafios...
Detectar
Se ocorreu....
Identificar a falha
O que ocorreu...
Localizar
Onde ocorreu...
Quantificar
Qual a gravidade do que
ocorreu...
Anomalias estudadas
Implementação de falhas
Falha de sensor Vazamento

Metodologia
Panorama geral
SPE: square prediction error

Spca: similarity PCA
Sdist: distance similarity factor
SVI: índice de validade do sensor
• Metodologias
a)PCA
Metodologia PCA
Autovetor associado ao maior autovalor
R1
R2
Metodologia PCA
Falha em sensor
Falha em sensor
Falha em sensor
Falha em sensor
Metodologia PCA
Matriz de dados (X)

Matriz de variância e covariância (VC)
VC = cov ( X )
[16x16] [251x16]
[V,D] = eig (VC)
Autovetores (V)
Autovalores (V)
[16x16]
Metodologia PCA
Caminho 1:
Matriz de componentes principais (MC):
Uma vez os autovetores ordenados a partir
dos respectivos autovalores associados,
procede-se a seleção dos n-componentes
principais e a montagem da matriz.
[16x16] 2
[16x8]
[251x16]
[251x16]
Dados Dados
reconstruídos originais
Mesma dimensão final!!

Metodologia PCA
Caminho 1: Exemplo
[2x2] [2x1]
[251x2]
[251x2]
Dados Dados
reconstruídos originais
O “Caminho 1” leva direto aos dados reconstruídos!

Metodologia PCA
Caminho 2:
Matriz de componentes principais (MC):
Uma vez os autovetores ordenados a partir
dos respectivos autovalores associados,
procede-se a seleção dos n-componentes
principais e a montagem da matriz.
[2x850] 2
[16x8] [850x16]
PCAdataCol=MC’*Dados’
PCAdata=PCAdataCol’
[850x2]
Dados representados no Dados

sistema de coordenadas originais
dos dois componentes principais
Metodologia PCA
Caminho 2:
[2x850] 2
[16x8] [850x16]
PCAdataCol=MC’*Dados’
PCAdata=PCAdataCol’
[850x2]
DadosModCol=MC*PCAdataCol’
[16x850] DadosMod = DadosModCol’
[850x16]
Dados
Dados originais
reconstruídos
Metodologia PCA
Caminho 2: Exemplo
PCAdata:
O “Caminho 2” permite parar nos dados representados usando

os eixos dos componentes principais.
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
1ª Técnica de detecção de anomalias
Detecta-se falha quando o erro de previsão do modelo

extrapola os limites do intervalo de confiança:
T’ T’’
Q: (somatório quadrático dos erros)
[251x1]
SPE:
Representa o erro quadrático da previsão (square prediction error).
O parâmetro SPE é o somatório do erro ponderado com o tempo. Ou seja, cria-se um

“efeito memória” onde erros no passado tem maior ou menor influência sobre o valor de
SPE mais recente. Tal ponderação é efetuada através do parâmetro lambda. Quanto mais
próximo do valor unitário lambda encontra-se, menor a influência do passado, sendo SPE
função principalmente dos valores mais recentes. Por outro lado, quanto mais próximo de
zero o valor de lambda se encontra, maior a influência do passado sobre o valor atual de
SPE.
Resultado sem ocorrência de falha:
6 dp
1 dp
Resultado com ocorrência de falha:

Baseia-se também na comparação das fases A e B,

agora através da aplicação de índices de “simetria” ou
“similaridade”.
T’ T’
Spca: A similaridade entre os dois grupos de dados é quantificada através da comparação

de seus componentes principais. Mais precisamente, o Spca compara os subespaços
gerados por cada modelo PCA através do cálculo do ângulo entre os componentes
principais. O fator de similaridade Spca é influenciado pela orientação espacial do
subespaço gerado pelos componentes principais.
Onde teta é o ângulo formado entre o “i-ésimo” componente principal do primeiro

conjunto de dados e o “j-ésimo” componente principal do segundo conjunto.
Na prática, porém, tendo-se as matrizes (MC A e MCB) compostas pelos “k”

componentes principais que descrevem os conjuntos de dados, torna-se mais simples
calcular Spca na sua forma matricial:
Sdist:
Enquanto o fator de similaridade Spca é influenciado pela orientação espacial do subespaço

gerado pelos componentes principais, o fator Sdist (ou “distance similarity factor”) é usado
para situações onde os conjuntos de dados têm orientação espacial similar, mas estão
localizados em posições distantes. O fator Sdist é a probabilidade que o centro do conjunto
de dados H ( x H ) esteja ao menos a distância  do centro dos dados B (x S ). Calcula-se Sdist
através da equação abaixo:
Pseudo inversa da matriz de

covariância dos dados S
Vetor linha com a média dos dados de cada sensor

SF:
O fator Sdist provê complemento as propriedades apresentadas pelo Spca, sendo natural
seu uso combinado. A junção dos dois fatores é denominada SF, e permite comparar os
conjuntos de dados tanto em relação à orientação de seus subespaços quanto a distancia
entre eles. A média ponderada é calculada pela equação:
Abordagem estática: Abordagem dinâmica:

• Metodologias
a)PCA
c)Detecção de anomalias (classif. hierárquica)
Classificação hierárquica
Com anomalia Sem anomalia
Dados brutos
Classificação hierárquica
A similaridade entre dois pontos pode ser entendida como sendo inversamente
proporcional a distância espacial entre esses pontos.
Para um espaço vetorial genérico de dimensão “n” (R n), a distância entre um

ponto “i” e outro “j” pode ser definida como:
Distância Euclidiana Distância City Block Distância Minkowski
(r = 2) (r = 1) r=3 e 4
• Metodologias
a)PCA
d) Identificação da origem da anomalia
Índice de validade dos sensores
SVI-D:
A metodologia aplicada na identificação do sensor em falha utiliza os “índices de validade dos

sensores” – SVI, descritos por Dunia et al [1996]. Foi usado o índice SVI-D, cujo cálculo é
apresentado abaixo. O valor de SVI varia entre 0 e 1, sendo 1 indicativo de máxima confiança
no correto funcionamento do sensor. Deste modo, os sensores que apresentam menores SVI são
os principais suspeitos de estarem apresentando falha.
Dados experimentais Dados reconstruídos pelo modelo

Di = D(:,i)
D = D(:,i)
[16x16]
Cii = C(i,i)
Resíduo total (todos os sensores)
Participação relativa de cada sensor no resíduo

Protótipos
www.prevention.indiana.edu
falha de 2% no
sinal do sensor 16
• Metodologias
a)PCA
e) Quantificação da anomalia
Classificação Hierárquica
Dados brutos
Severidade
da anomalia
d
• Metodologias
a)PCA
e) Quantificação da anomalia
f) Definir o tipo de anomalia
Definir o tipo de anomalia
Sdist vs Spca: Sdist
Spca
SVI-D + PCA:
Falha de sensor Vazamento
Protótipos + Classificação Hierárquica:

>> whos CURSO
Name Size Bytes Class Attributes
CURSO 66x11 1452 char

>> whos NOTAS
NOTAS 66x8 4224 double

>> MIN
MIN =
0.0600 0.0600 0 0 2.7700 2.0000 2.0000 5.0400
>> MAX
MAX =
3.9300 4.3600 1.1100 48.0000 97.0000 7.0000 7.0000 9.8400
>> whos X1 X2 X3 X4 X
X 66x8 4224 double

X1 66x1 528 double
X2 66x1 528 double
X3 66x1 528 double
X4 66x1 528 double
XMedio =
0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368

>> EE >> percE
EE = percE =
0.2861 68.8564
0.0653 15.7177
0.0259 6.2445
0.0148 3.5687
0.0111 2.6778
0.0087 2.1021
0.0032 0.7741
0.0002 0.0588
L= IL =
0.0002 1
0.0032 2
0.0087 3
0.0111 4
0.0148 5
0.0259 6
0.0653 7
0.2861 8
>> percE
percE =
68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ... 0.0588
... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368)
XMedio =
0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368

S1
S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ...
... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368)
>> percE
percE =
68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
0.0588
S2=-0.5049(X1-0.31168)-0.4742(X2-0.32086)+0.4565(X3-0.2113)+0.2967(X4-0.11027)+ ...
... -0.3949(X5-0.60135)+0.1895(X6-0.4818)+0.1786(X7-0. 4333)-0.0041 (X8-0.6368)
XMedio =
0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368

S2=-0.5049(X1-0.31168)-0.4742(X2-0.32086)+0.4565(X3-0.2113)+0.2967(X4-0.11027)+ ...
... -0.3949(X5-0.60135)+0.1895(X6-0.4818)+0.1786(X7-0. 4333)-0.0041 (X8-0.6368)
Dados plotados usando os valores calculados de S1
e S2. As cores referem-se as notas do CA.
Dados plotados usando os dois componentes principais
(caminho 2). As cores referem-se as notas do CA.
Perguntas feitas para crianças:
Componentes Principais:
1º componente 2º componente 3º componente
principal principal principal
8 variáveis
autovalores
Variação explicada
Meço o valor de Componente 1, 2 e 3 para cada criança.
O maior coeficiente indica a classificação da criança.

8 variáveis
Nome fictício em função dos coeficientes mais importantes. Cada criança vai ser
classificada com um desses nomes.
Perguntas feitas para os pais:
Tal pai, tal filho:
Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)
Fator 1 = 1 : indica que o número de pais que a parcela de pais com filhos tipo 1
que respondem YES é igual a parcela de pais total que diz YES. Ou seja, o tipo
de filho e a resposta do pais não parecem correlacionadas.
Tal pai, tal filho:
comem?
Fator 1 = 1.20 : indica que o número de pais que responderam NO é 20%

superior ao normal da população. Ou seja, filhos tipo 1 tendem a ter 20%
mais chance de terem pais que NÃO controlam o que ou quanto eles comem.
Tal pai, tal filho:
comem?
Fator 1 = 0.71 : indica que o número de pais que responderam YES é 40%
superior ao normal da população. Ou seja, filhos tipo 1 tendem a ter 40%
mais chance de terem pais que controlam o que ou quanto eles comem.
0.71 * X = 1
X = 1.40
Tal pai, tal filho:

Aula Pca04

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula Pca04

Enviado por

Direitos autorais:

Formatos disponíveis

DETECÇÃO DE FALHAS EM REDES

Carlos André Vaz Junior

Falha de sensor Vazamento

SPE: square prediction error

Autovetor associado ao maior autovalor

Matriz de dados (X)

[V,D] = eig (VC)

Mesma dimensão final!!

O “Caminho 1” leva direto aos dados reconstruídos!

Dados representados no Dados

O “Caminho 2” permite parar nos dados representados usando

Detecta-se falha quando o erro de previsão do modelo

Q: (somatório quadrático dos erros)

O parâmetro SPE é o somatório do erro ponderado com o tempo. Ou seja, cria-se um

Resultado sem ocorrência de falha:

Resultado com ocorrência de falha:

Baseia-se também na comparação das fases A e B,

Spca: A similaridade entre os dois grupos de dados é quantificada através da comparação

Onde teta é o ângulo formado entre o “i-ésimo” componente principal do primeiro

Na prática, porém, tendo-se as matrizes (MC A e MCB) compostas pelos “k”

Enquanto o fator de similaridade Spca é influenciado pela orientação espacial do subespaço

Pseudo inversa da matriz de

Vetor linha com a média dos dados de cada sensor

Abordagem estática: Abordagem dinâmica:

Com anomalia Sem anomalia

Para um espaço vetorial genérico de dimensão “n” (R n), a distância entre um

Distância Euclidiana Distância City Block Distância Minkowski

A metodologia aplicada na identificação do sensor em falha utiliza os “índices de validade dos

Dados experimentais Dados reconstruídos pelo modelo

Participação relativa de cada sensor no resíduo

Sdist vs Spca: Sdist

Falha de sensor Vazamento

Protótipos + Classificação Hierárquica:

CURSO 66x11 1452 char

NOTAS 66x8 4224 double

0.0600 0.0600 0 0 2.7700 2.0000 2.0000 5.0400

3.9300 4.3600 1.1100 48.0000 97.0000 7.0000 7.0000 9.8400

X 66x8 4224 double

0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368

0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368

0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368

1º componente 2º componente 3º componente

Fator 1 = 1.20 : indica que o número de pais que responderam NO é 20%

Você também pode gostar