Você está na página 1de 11

QUIMIOMETRIA

Quimiometria pode ser definida como uma rea da qumica que usa mtodos matemticos e estatsticos para a- planejar ou selecionar procedimentos timos de medidas e experimentos. b- extrair o mximo da informao qumica relevante, com a anlise dos dados Outras definies: Quimiometria uma cincia que relaciona MEDIDAS, feitas num sistema ou processo qumico, ao ESTADO do sistema utilizando mtodos matemticos e/ou estatsticos.

QUIMIOMETRIA

Professora Mrcia M. C. Ferreira Laboratrio de Quimiometria Terica e Aplicada Instituto de Qumica UNICAMP Campinas, SP, 13083 - 970 Email: marcia@iqm.unicamp.br URL: http://lqta.iqm.unicamp.br
A quimiometria engloba todo um processo onde os DADOS (por exemplo, nmeros em uma tabela) so transformados em informaes usadas para tomar decises. Administrao e processamento de informaes de natureza qumica. Quimiometria o que os quimiometristas fazem.

REFERNCIAS
LIVROS
CHEMOMETRICS M. A. Sharaf, D. L. Illman and B. R. Kowalski, Wiley-Interscience (1986). FACTOR ANALYSIS IN CHEMISTRY E. R. Malinowski, 3rd edition, John Wiley & Sons Ltd. (2002). MULTIVARIATE CALIBRATION H. Martens and T. Naes, John Wiley & Sons Ltd. (1989)

CHEMOMETRICS A Practical Guide K. Beebe, R. Pell. M. B. Seasholtz, John Wiley & Sons (1998). CHEMOMETRICS Data Analysis for the Laboratory and Chemical Plant Richard G. Brereton, John Wiley & Sons (2002). HANDBOOK OF CHEMOMETRICS AND QUALIMETRICS; Data Handling In Science and Technology, Volumes 20A e B Massart, D. L.; Vandeginste, B. G. M.; Buydens, L. M. C.; De Jong, S.; Lewi P. J.; Smeyers-Verbeke. J.; Elsevier, Amsterdam, 1997.

REVISTAS ESPECIALIZADAS
Journal of Chemometrics Chemometrics and Intelligent Laboratory Systems Analytical Chemistry Analytica Chimica Acta Applied Spectroscopy

SOFTWARE / LINKS
MATLAB PLS_Toolbox (Eigenvector Res. Inc,) www.eigenvector.com, www.models.kvl.dk/source/ PIROUETTE (Infometrix, Inc.) www.infometrix.com UNSCRAMBLER (CAMO Inc.) www.camo.com/ SIMCA (Umetrics) www.umetrics.com/

UM ROTEIRO PARA A ANLISE DE DADOS MULTIVARIADOS


1- Definio do problema 2- Organizao dos dados 3- Validao dos dados 4- Visualizao dos dados originais 5- Transformao / Pr-processamento dos dados
Verificar:

DEFINIO DO PROBLEMA
A primeira questo a ser colocada para um sistema em estudo: O que queremos saber deste sistema? Gastar um tempo em definir o problema a ser resolvido, com certeza ajuda na escolha correta das tcnicas experimentais a serem usadas, e no desenvolvimento dos protocolos garantindo que as informaes realmente desejadas sejam coletadas FATORES QUE DEVEM SER CONSIDERADOS Rever a histria da origem do problema -Como os dados foram gerados -Que mtodos de medida foram utilizados -O nvel de acuracidade relacionado a cada varivel -Quando os dados foram coletados, etc. OUTROS FATORES IMPORTANTES -J foi feita alguma anlise anterior? -Existe alguma informao anterior que seja pertinente? -As medidas feitas mais recentemente so diferentes das anteriores? -A acuracidade instrumental melhorou?

6- Anlise Exploratria dos dados 7- Construo de Modelos de

Calibrao/Classificao
8- Validao dos Modelos 9- Uso dos Modelos para previses

ORGANIZAO DOS DADOS


conveniente colocar os dados num nico arquivo. TENHA SEMPRE EM MENTE -Os dados so de um nico instrumento? -H mais de um instrumento ou tipo? -Qual a preciso dos instrumentos? -H resposta de questionrios ou dados coletados a mo? -Os dados de cada amostra esto num nico arquivo? -A(s) varivel(eis) dependente(s) e/ou classes esto em arquivo a parte ou sero entrados a mo? Cada amostra corresponde a uma linha na matriz de dados, cujos elementos so os valores das variveis medidas

O resultado uma matriz X(I,J) com um total de I linhas (amostras) e J colunas (variveis) cujos valores xij so as respostas para as variveis j = 1, 2, 3, ..., J, referentes amostra i.
T x1 x11 T x x 2 21 X= M = M M M x T x I 1 I

x12 x22 M M

L L O

xI 2 L

L x1J L x2 J M = x1 O M L x IJ

x2 L

xJ

As variveis podem ser

respostas de um instrumento multicanal (espectrmetro): as intensidades para diferentes comprimentos de onda. resultados de instrumentao de separao, (cromatgrafo): a altura ou rea de pico em tempos de reteno especficos ou relativos correspondendo a constituintes especficos. resultados de instrumentao eletroqumica (voltametria, potenciometria): de medidas de potenciais em eletrodos seletivos para ons (potenciometria) ou intensidades de correntes para diferentes potenciais (voltametria). ensaios mltiplos especficos de instrumentao univariada testes Fsicos/Qumicos/ Biolgicos resposta no instrumental: resposta de uma anlise sensorial

x iT = [xi1 xi2 xi3 xiJ]

Cada coluna xj se refere a uma varivel independente, ou seja, uma medida j realizada para todas as amostras x1 j x 2j xj = M M x Ij

A matriz X(I,J) pode ser interpretada de duas maneiras diferentes:

VALIDAO DOS DADOS


O valor xij est ausente na matriz de dados. O QUE FAZER??? -Exclua as linhas ou colunas -Complete com valores (as linhas ou as colunas) ZERO? nem sempre possvel ou aconselhvel

Como um arranjo de I pontos, num espao de dimenso J onde cada ponto tem J
coordenadas. Este chamado de espao das linhas. Cada amostra corresponde a um ponto neste espao.

Como um arranjo de J pontos num espao de dimenso I. Este o espao das


colunas, onde cada coluna representada por um vetor com I coordenadas.

1 1 X= 3 4 5 6

Trs mtodos usados para estimar xij a partir do restante dos dados: 1- xij = valor mdio obtido para a varivel j com os valores das amostras restantes. 2- xij = mdia ponderada dos valores das k amostras que no tem dados faltantes, x1j, ..., xkj e que esto mais prximas da amostra i. A contribuio de cada amostra ponderada com base na similaridade do seu perfil com o da amostra i.

No grfico da esquerda (espao linha) podemos ver a relao entre as amostras (similaridade/dissimilaridade entre elas). No grfico da direita pode-se ver a relao entre as duas variveis.

3- O terceiro mtodo faz uso da anlise de componentes principais (ou decomposio de valores singulares, SVD)

Em linhas gerais:
Seleciona-se um valor inicial para xij (o valor mdio por exemplo) Faz-se a decomposio de valores singulares dos dados completos Selecionam-se as A componentes principais significativas Reconstri-se os dados com APCs, produzindo uma estimativa para xij. Repete-se o processo (nova SVD) at que a diferena entre duas matrizes reconstrudas convirja para um vapor arbitrrio suficientemente pequeno. O uso do valor mdio o mais rpido mas de acuracidade mais baixa. O mtodo dos k-simos vizinhos mais prximos em geral apresenta melhor desempenho especialmente com o acrscimo na quantidade de dados faltantes.

VISUALIZAO DOS DADOS ORIGINAIS


A maneira mais interessante de visualizar os dados por meio de grficos. Os dados abaixo se referem a espectros refletncia difusa na regio do infravermelho prximo de 26 amostras. As variveis so os comprimentos de onda na faixa de 4500 10000 cm-1, com resoluo de 4 cm-1 (incremento de 2 cm-1). Os resultados so expressos em log(1/R). Temos mais de duas mil variveis medidas por amostra, X = (26, 2750). Os espectros apresentam deslocamentos e inclinao na linha de base considerveis, caractersticos de espectros de reflectncia difusa.

Os dois ltimos mtodos funcionam bem quando a quantidade de dados faltantes relativamente alta.

Matrizes com 50 100 amostras podem ser analisadas caso tenham de 10 a 20% de dados faltantes, desde que no estejam faltando segundo algum padro sistemtico. Quanto maior a matriz de dados, maior esta proporo.

Existe alta correlao entre as variveis indicando que elas contm essencialmente a mesma informao (uma varivel aproximadamente funo linear da outra). Isto ocorre quando temos matrizes com J >> I. Ateno: A amostra 46 tem um comportamento atpico. Seria um outlier?

Este exemplo contm uma srie de grficos bi-variados de amostras de oito tipos diferentes de embutidos de peru (salsicha, hambrguer, almndega, banque, role, presunto, presunto defumado e peito de peru defumado), que foram analisados por espectrometria de emisso ptica com plasma indutivamente acoplado (ICP-OES). As variveis so as concentraes de seis elementos minerais: Na, K, Mg, Fe, Zn e P.

Os dados abaixo se referem aos espectros no infravermelho prximo das amostras de caf cru.

Grficos 2D so bons para visualizar agrupamentos de amostras em algumas variveis. (Na x Zn); (Na x P)

A anlise de grficos bi-variados muito til na seleo de variveis. Existe correlao entre as variveis? O grfico acima mostra uma tendncia sistemtica da varivel correspondente ao nmero de onda 4800 cm-1 com o nmero crescente da amostra (problema??) O deslocamento da linha de base varia com o tempo. A distribuio das absorbncias no est centrada no valor 1,1 como esperado. Grficos desta natureza podem indicar um acrscimo monotnico da varivel ou uma flutuao drift no calibrada da medida, originada de variaes ambientais (temperatura, umidade), vibraes, variaes na fonte, etc.

PR-TRATAMENTO DOS DADOS


OS DADOS EXPERIMENTAIS SO PREPARADOS PARA ANLISE Objetivo: remover matematicamente fontes de variao indesejveis que no sero removidas naturalmente durante a anlise dos dados. TRANSFORMAO Aplicado s amostras Linhas da matriz X PR-PROCESSAMENTO Aplicado s variveis Colunas da matriz X

TCNICAS DE ALISAMENTO
Aumentam a razo sinal-rudo. Em geral utilizam uma janela. Todos os pontos da janela so usados para determinar a resposta no centro da mesma. A janela percorre todo o espectro.
O alisamento com filtro de Fourier usa uma metodologia diferente. ALISAMENTO PELA MDIA usado quando se deseja diminuir o nmero de variveis (J). Seleciona-se uma janela de abertura = n+1, onde n um nmero inteiro par. (as n+1 primeiras variveis), Calcula-se a mdia das respostas, que ser a primeira varivel do espectro alisado, com comprimento de onda igual ao do centro da janela (n/2 + 1). Faz-se o mesmo com as variveis n+2 ate 2n+2 O resultado um espectro com um nmero de variveis igual ao inteiro mais prximo de J/(n+1).

TRANSFORMAO DOS DADOS Os sinais medidos consistem de: SINAL MEDIDO = CONTRIBUIO DETERMINSTICA + CONTRIBUIO ESTOCSTICA Sinal verdadeiro Rudo aleatrio Informao relevante + Informao indesejada Variaes sistemticas ou aleatrias devem ser removidas. Variaes aleatrias: (rudo experimental) so removidas por meio de tcnicas de alisamento (smoothing) com o objetivo de aumentar a razo sinal-rudo S/R. Variaes sistemticas: reduzidas ou eliminadas por meio de correes da linha de base.

CUIDADO, POIS O TAMANHO DA JANELA PODE ELIMINAR INFORMAES RELEVANTES.

ALISAMENTO PELA MDIA MVEL Idntico ao alisamento pela mdia, s que neste caso, a janela move de elemento em elemento ao invs de janela em janela. O espectro alisado contendo basicamente o mesmo nmero de variveis que o original. Em lugar da mdia, pode-se usar a mediana da janela ajustar um polinmio aos pontos da janela e substituir o ponto central da janela pelo valor estimado pelo polinmio.

(a) espectro original. (b) espectro alisado com janela n = 10. (c) espectro alisado com janela n = 30.

No eixo das ordenadas mostrado o nmero das variveis e no o nmero de onda. Note a perda de resoluo no ltimo espectro alisado com janela n = 30. Alisamento pela mdia na linguagem do MATLAB
% Esta rotina, faz o alisamento pela mdia % X a matriz a ser alisada (amostras nas linhas) % Xalis a matriz alisada e "janela" o tamanho da janela X=X'; Xalis=[]; [J,I]=size(X); for j=1: round(J/(janela+1)-.5) Xalis=[Xalis ; mean(X((j-1)*janela+j: j*janela+j,:))]; end %para a ltima janela if (J-(j*janela+j)) > janela/2 Xalis=[Xalis ; mean(X(j*janela+j:J,:))]; end Xalis= Xalis';

(a) a banda simulada uma gaussiana com rudo adicionado.


(b) parte da banda com a janela mvel em vermelho. (c) primeira janela alisada e a indicao da segunda janela. (d) banda alisada sobreposta banda original sem rudo.

ALISAMENTO COM FILTROS DE FOURIER Os espectros que esto no domnio do tempo so transformados para o domnio da frequncia (interferograma) pela transformada de Fourier. As componentes de alta frequncia no incio e final do interferograma so removidas fazendo os coeficientes de Fourier iguais a zero. O resultado ento transformado de volta ao domnio do tempo. Foram retidas as componentes de baixa frequncia, este filtro denominado low pass. Cuidado para evitar um super alisamento que pode distorcer ou eliminar caractersticas importantes do espectro. Com o alisamento h uma perda na resoluo e o espectro alisado contm menos informao que o original. Este o preo pago pelo acrscimo na razo S/R. DERIVADAS

CORREES DA LINHA DE BASE

Problemas de linha de base podem ser corrigidos tomando-se as derivadas do espectro. O algoritmo mais utilizado o de Savitsky-Golay.

Primeira Derivada

dA ( j ) A( j ) = A + A d
j j

O espectro inteiro pode estar deslocado de uma quantidade constante (Offset na linha de base), que pode ser corrigido tomando-se a primeira derivada.

Outras Transformaes Importantes


Espectro que apresenta um problema de inclinao na linha de base (bias), subindo um morro medida que decresce o nmero de onda, pode ser corrigido tomando a segunda derivada. LOGARTMO O logaritmo (log 10) pode ser aplicado com o objetivo de linearizar os dados e a escolha da base logartmica no afeta a interpretao dos resultados. Espectros de transmitncia ou refletncia no so lineares com a concentrao e devem ser transformados para absorbncia.

Segunda Derivada

(2 )

d2A ( j ) 2 A( j ) = A + + A 2 A d2
j j

A = - log T = - log I/Io


T = 10 lc

Esta transformao tambm pode ser usada para enfatizar intensidades baixas.

ALERTA: alguns algoritmos usados para calcular derivadas introduzem mais rudo nos resultados. O analista deve decidir se o offset e bias eliminados usando derivadas compensam o rudo introduzido. A segunda derivada mede a concavidade de uma curva. Esta caracterstica muito til para identificar picos especialmente quando eles esto sobrepostos.
Transformao logartmica de um espectro de fluorescncia de raios-X com intensidades variando de 0,1x104 a 3,8 x104.

Em estudos de QSAR se deseja obter uma relao funcional f entre uma srie de descritores estruturais e a atividade biolgica da forma: atividade = f(descritores) Na construo dos modelos, as atividades so transformadas para a forma logartmica.

NORMALIZAO Divide-se cada uma das variveis de uma dada amostra i por um fator de normalizao: pela norma da amostra i, representada por ||xi||. O resultado que todas as amostras estaro numa mesma escala. xij xij ( norm ) = , j = 1, 2, ..., J xi As normas mais utilizadas so:
x i = max xij 1 j J

TRANSFORMAO DE KUBELKA-MUNK Reflexo da luz incidente numa amostra perfeitamente lisa: __ espalhamento de uma amostra rugosa: __

norma sup, ou l
xi 2

xi 1 =

j =1

xij

norma l1

O mais comum para linearizao de espectros de reflectncia difusa o uso da transformao mencionada anteriormente que log Rl. A equao original de Kubelka-Munk relaciona a reflectncia difusa absoluta com os coeficientes de espalhamento, s, e absoro molar, k. Na prtica a reflectncia relativa foi substituda pela reflectncia relativa (em relao a um padro). Esta equao, que define uma relao linear entre a intensidade espectral relativa (em relao a um padro) e a concentrao, mais sofisticada que a simples transformao logartmica, -log Rl.

2 xij j =1

norma Euclideana ou norma l2

Normalizao pela norma sup: a resposta mxima de cada uma das amostras se torna igual a 1. Normalizao pela norma l1: a rea sob cada um dos espectros unitria. Normalizao pela norma l2: cada espectro ter comprimento igual a 1. NOTAS: A normalizao usada principalmente para remover variao sistemtica, em geral associada com o tamanho da amostra. Corrige-se o efeito da variao no volume de injeo em cromatografia normalizando cada cromatograma para rea unitria. Normaliza-se o pico com maior m/e em espectrometria de massa utilizando-se a norma sup.

1 R 1 2R 1

)2 k =

CORREO MULTIPLICATIVA DE SINAL MSC Usada para corrigir efeitos de espalhamento de luz em espectroscopia por refletncia, causados por diferenas no tamanho e na forma das partculas. Estes efeitos so eliminados fazendo-se a regresso linear das variveis espectrais (XT) nas variveis do espectro mdio (xm). xi = ai1 + bi xm. Os coeficientes ai e bi da amostra i so calculados por quadrados mnimos fazendo-se a regresso de cada espectro no espectro mdio (um conjunto a, b para cada amostra), O espectro corrigido ximsc obtido subtraindo-se a absorbncia de cada comprimento de onda do espectro original, xi, de ai e dividindo-a por bi. O resultado final da regresso uma matriz de coeficientes (2 x I).

Xm M 1 M x M x a m i i = M M M bi M 1 M
1 T x i ai T b = X mX m X m M i

(9),

M x i msc = 1 M bi M

M ai x i M M M M ai

Rotina em linguagem do MATLAB para o clculo do espectro corrigido

[I,J]=size(X); Xm=[ones(J,1) mean(X)']; % Xm uma matriz de duas colunas, apresentando uma % coluna esquerda com todas as suas entradas unitrias (1s), coef=inv(Xm'*Xm)*Xm'*X'; Xmsc=(X'-ones(J,1)*coef(1,:))./(ones(J,1)*coef(2,:)); Xmsc=Xmsc';

A vantagem deste tratamento em relao s derivadas, que o espectro corrigido se assemelha ao espectro original, o que auxilia na interpretao.

TRANSFORMAO DE WAVELET: Tal como a transformada de Fourier, esta uma transformao que fornece informaes nos domnios do tempo e da frequncia. Na transformada de Fourier fazse uma combinao linear de senos e cosenos enquanto que na transformada de wavelet as funes usadas so as funes de wavelet. Esta transformao bastante utilizada para minimizar efeitos de rudos e desvios tendenciosos drifts da linha de base. Para uma descrio mais detalhada, o leitor deve consultar a literatura. O EXEMPLO A SEGUIR ILUSTRA O EFEITO DE ALGUMAS DAS TRANSFORMAES VISTAS O conjunto de dados contm os espectros originais, registrados na regio do infravermelho prximo, NIR, na faixa de 4000 cm-1 a 10000 cm-1 com resoluo de 4 cm-1 de 42 amostras de produtos de tomate.

Usar o mtodo das derivadas para resolver os problemas de linha de base; a segunda derivada, em princpio, deveria resolver ambos os problemas. Espetros das amostras de produtos de tomate aps a derivao

primeira derivada

segunda derivada.

visvel a introduo do rudo originado com este mtodo. A segunda derivada dos espectros apresenta um nvel bem maior de rudo que a primeira derivada.

Os espectros apresentam deslocamento e uma inclinao na linha de base. As regies de 4000 cm-1 a 5500cm-1 e de
6300 cm-1 a 7300 cm-1apresentam um nvel mais alto de rudo.

A eliminao do deslocamento e inclinao da linha feita desta maneira compensa o rudo introduzido? Estes resultados podem ser melhorados aumentando a razo S/R com um alisamento pela mdia nos dados originais. Para isto foi usada uma janela de tamanho n = 10 para o alisamento.

Aplicao da correo multiplicativa de sinal nos espectros alisados. Espetros alisados pela mdia e ento corrigidos pela correo multiplicativa de espalhamento MSC.

O nmero de variveis foi reduzido para 273. visvel o acrscimo na relao S/R especialmente na regio de 4000 cm-1 5500 cm-1. A forma geral do espectro no sofreu alterao e portanto, no houve perda de informao com esta transformao. Aps o alisamento, os espectros foram ento derivados para a correo dos efeitos de linha de base.

O deslocamento da linha de base foi em grande parte removido e a inclinao da linha de base permanece. primeira derivada segunda derivada Isto se deve ao fato de que a MSC utiliza a projeo dos espectros no espectro mdio que possui esta mesma tendncia.

Este exemplo mostra a importncia do uso correto das transformaes.

PR-PROCESSAMENTO DOS DADOS


Mtodos aplicados s variveis
CENTRAGEM DOS DADOS NA MDIA (apenas uma translao de eixos)
xij (cm) = xij x j
1 x j = xij I i =1
I

NOTAS

A escolha adequada do pr-tratamento essencial para o sucesso de qualquer anlise.

onde

a mdia da j-sima coluna dos dados.


xij ( sv ) = xij sj

Quando as variveis tm diferentes unidades ou quando a faixa de variao dos dados grande, recomenda-se o autoescalamento das variveis. Todos estes mtodos de escalamento so sensveis presena de amostras
anmalas, que tm um comportamento diferenciado do restante do conjunto, outliers. O escalamento pela amplitude mtodo mais sensvel, porque uma amostra com comportamento distinto aumenta a faixa de variao e pode deslocar as demais para o lado oposto a ela.

ESCALAMENTO PELA VARINCIA


s2 j = 1 I xij x j I 1 i =1

onde

)2

o quadrado do desvio padro da j-sima arivel.


xij ( as ) = xij x j sj

AUTOESCALAMENTO

Recomenda-se centrar os dados na mdia para a construir modelos de calibrao


com dados de espectroscopia.

ESCALAMENTO PELA AMPLITUDE*: Neste pr-processamento, os dados so escalados como mostra a equao abaixo
xij ( sr ) = xij x j ( min ) x j ( max ) x j ( min )

Medidas de espectroscopia ptica tm correlao significativa entre as variveis e, portanto, no requerem escalamento por varincia ou autoescalamento. Em estudos de QSAR, o autoescalamento o procedimento universal.

onde

x j ( min ) = min xij


1 i I

x j ( max ) = max xij


1 i I

___________________________________

[*] Escalamento pelo Range

EXEMPLO
A Tabela abaixo contm dados de concentraes de vrios constituintes encontrados em amostras de gua do mar coletadas na regio de Cabo Frio no litoral norte de So Paulo durante uma expedio feita no vero de 1986, onde esto sendo consideradas tambm a temperatura (Temp) e a salinidade (Sal) da gua.
NO2 0,00 0,09 0,01 0,00 0,06 0,31 0,01 0,07 0,06 0,04 0,08 0,00 0,06 0,08 0,06 0,08 NH3 1,20 0,50 0,40 0,10 0,10 1,00 0,30 0,50 0,50 0,30 0,60 0,30 0,50 0,60 0,49 0,31 N2 1,48 0,85 0,71 0,29 0,29 2,34 0,54 0,65 0,70 0,57 0,75 0,30 0,68 13,14 1,66 3,34 PO4 0,02 0,02 0,07 0,12 0,36 0,47 0,00 0,04 0,08 0,06 0,01 0,01 0,14 0,43 0,13 0,16 SiO2 1,64 0,43 0,61 0,68 2,44 5,02 1,25 0,43 2,92 1,40 1,01 0,18 3,55 2,68 1,73 1,41 O2 106,00 110,20 111,83 96,48 81,00 76,42 104,50 100,68 96,48 108,60 103,33 101,00 81,92 85,83 97,45 11,65 Temp 23,50 22,74 20,98 16,63 15,35 15,57 22,00 21,99 19,74 17,09 23,21 23,16 17,17 14,06 19,51 3,40 Sal 35,92 35,25 35,28 35,43 35,49 35,65 35,49 35,32 35,82 35,72 35,63 35,68 35,75 35,38 35,56 0,21

As variveis O2, Temp e Sal tm uma resposta mdia muito alta em comparao com as outras variveis, se bem que a faixa de variao da salinidade bem estreita. Os valores das respostas da varivel N2 so pequenos mas o seu conjunto tem um desvio padro bastante alto (especialmente devido concentrao da ltima amostra), da mesma ordem de grandeza do desvio padro da varivel Temp cujo valor mdio mais do que dez vezes maior. Estes dados devem ser autoescalados antes da anlise. Com o autoescalamento, as variveis que tem uma faixa de variao alta sero encolhidas e aquelas com baixo desvio padro sero alongadas, como por exemplo as variveis 1, 2, 4 e 8.

Mdia Desvio Padro

Quando a faixa de variao dos dados grande, recomenda-se o autoescalamento de cada varivel por um valor. Assim, minimizamos o efeito (influncia) de uma varivel dominante em clculos posteriores.

EXEMPLO NUMRICO
x1 x 2 x 3 1 2 X= 0 1 0 4 7 3 6 2 8 5

As linhas vermelhas se referem aos valores mdios de cada varivel. (a) faixa de variao de cada varivel; (b) faixa de variao do desvio padro de cada varivel.
(a) (b)

O ponto em azul indica o ponto mdio do conjunto de dados.

CENTRAGEM DOS DADOS NA MDIA


Geometricamente equivale a fazer uma translao do sistema de eixos ao longo do vetor (1,00; 5,25; 3,50), para o centro do conjunto de dados.

x = [1,00 ; 5,25 ; 3,5 0] = x ; x ; x


T 1 2

s T = [0,82 ; 3,59 ; 1,29] = [s1 ; s 2 ; s 3 ]


xT sT
um vetor linha contendo as mdias das colunas de X um vetor linha, contm o desvio padro de cada coluna.

[I,J] = size(X); xbar = mean(X); Xcm = X ones(I,1)*xbar;


1 2 = 0 1 0 4 1,0 7 3 1,0 6 2 1,0 8 5 1,0 5,25 0,5 5,25 3,5 0 5,25 3,5 1,0 1,75 0,5 = 5,25 3,5 1,0 0,75 1,5 5,25 3,5 0 2,75 1,5

Estes dados podem ser representados num grfico de barras, uma para cada varivel e suas respectivas mdias, ou ainda num grfico de barras de varincia.

X cm

Cada uma das barras deslocada at que os valores mdios coincidam com o zero mas, mantendo intacto o tamanho de cada uma.

Com este pr-processamento o valor mdio de cada coluna mudou e tambm o tamanho de cada barra. Agora, todas as barras de desvio padro tm o mesmo tamanho (desvio padro sv = 1,0).

(a)

(b) ESCALAMENTO PELA VARINCIA

Se os dados originais so escalados pela varincia, cada elemento da matriz original ser dividido pelo desvio padro da respectiva coluna,
s=sqrt((sum(X.^2))/(I-1)); %ou s=std(X); Xv=X./(ones(I,1)*s)
T xv = [1,23 ; 1,46 ; 2,71] T sv = [1,0 ; 1,0 ; 1,0]

A matriz de dados tambm pode ser escalada para 1/(I-1) unidades de varincia. Neste caso, Xv ligeiramente diferente. Xv=X./(ones(I,1)*std(X)*sqrt(I-1)) % o smbolo ./ indica que os respectivos elementos % de cada matriz sero divididos entre si.

1 2 Xv = 0 1

1 0 4 0,82 7 3 0,00 6 2 0,00 8 5 0,00

0,00 1 3,59 0,00

0,00

0,00 1,23 0 3,10 2,45 1,95 2,32 0,00 = 0,00 0,00 0,75 1,55 1 1,23 2,75 3,87 1,29

A escala foi tomada em unidades de varincia (varincia unitria), tal como mostrado no vetor de desvio padro , das colunas de Xv.

1,79 0,71 0 1,41 1,13 1,34 Xv = 0,00 0,96 0,89 0,71 1,29 2,24

T xv = [0,71 ; 0,84 ; 1,57] T sv = [0,58 ; 0,58 ; 0,58]

Grficos de barra para os dados autoescalados.

Grficos de barra para os dados escalados pela varincia. A faixa de variao do desvio est em escala de 1/(I-1) unidades de varincia.

(a) faixa de variao das variveis centradas na mdia e escaladas para varincia unitria; (b) faixa de variao do desvio padro de cada varivel ( 1,0); (c) faixa de variao do desvio padro de cada varivel normalizado para 1/(I-1). (a) (b) (c) possvel visualizar o que acontece no espao das linhas e no espao das colunas quando se fazem os pr-processamentos, usando um exemplo mais simples de uma matriz X(3,3).

AUTOESCALAMENTO Para autoescalar os dados, vamos centr-los na mdia e escalar pela varincia Xas = Xcm./(ones(I,1)*s);)

X as

1,46 0,39 0 1,23 0,49 0,39 = 1,23 0,21 1,16 0,77 1,16 0

T x as = [0,0 ; 0,0 ; 0,0]

sT 1,0 ; 1,0 ; 1,0] as = [

Xas = Xcm./((ones(I,1)*s*sqrt(I-1));

sT as = [0,58 ; 0,58 ; 0,58]

X as

0,84 0,22 0,0 0,71 0,28 0,22 = 0,71 0,12 0,67 0,44 0,67 0,0

1 0 X = 3 2 2 4

1 1 3

x T = [2; 2; 1], sT = [1; 2; 2]

CENTRANDO OS DADOS NA MDIA:

1 2 0 0 2 X cm = 1 2 2 0
No espao das amostras: translao da origem do sistema de eixos para o centride. A distncia entre as amostras foi conservada. No espao das colunas: a distncia entre os pontos no foi preservada. AUTOESCALANDO OS DADOS PARA VARINCIA UNITRIA:

1 1 0 Xas = 1 0 1 0 1 1
No espao das amostras: as distncias entre as amostras no foram preservadas. No espao das colunas: as distncias de todos os pontos origem a mesma. Esta distncia no 1 porque os dados foram escalados para varincia unitria. Com os dados autoescalados, os pontos no espao das colunas esto localizados numa hiperesfera centrada na origem do espao.

Você também pode gostar