Você está na página 1de 26

Estatstica multivariada

Uma viso didtica-metodolgica


J. M. Moita Neto
Introduo

Em qualquer deciso que tomamos em nossas vidas, sempre levamos em conta um grande nmero de fatores. Obviamente nem todos estes pesam da mesma maneira na hora de uma escolha. s ve!es, por tomarmos uma deciso usando a intui"o, no identificamos de maneira sistemtica estes fatores. Ou se#a, no identificamos quais as variveis que afetaram a nossa deciso. $uando analisamos o mundo que nos cerca, identificamos que todos os acontecimentos, se#am eles culturais ou naturais, envolvem um grande nmero de variveis. %s diversas ci&ncias t&m a pretenso, de conhecer a realidade e de

interpretar os acontecimentos 'ci&ncias humanas( e os fen)menos 'ci&ncias naturais(, baseadas no conhecimento das variveis intervenientes consideradas importantes nestes eventos. Estabelecer rela"*es, encontrar ou propor leis e+plicativas , o papel prprio da ci&ncia. -ara isso , necessrio controlar, manipular, medir as variveis que so consideradas relevantes ao entendimento do fen)meno analisado. .uitas so as dificuldades em tradu!ir as informa"*es obtidas em conhecimento. % maior delas , de nature!a epistemolgica/ a ci&ncia no conhece a realidade, apenas a representa atrav,s de modelos e teorias dos diversos ramos do conhecimento. Outra dificuldade , a aspira"o de universalidade das e+plica"*es cient0ficas. Ora, isto implica e condiciona a pesquisa a uma 1padroni!a"o1 metodolgica. Um aspecto essencial desta padroni!a"o , a avalia"o

estat0stica das informa"*es. % maneira prpria de fa!er ci&ncia, procurando redu!ir a poucas variveis, desenvolveu muito um ramo da estat0stica que olha as variveis de maneira isolada 2 a estat0stica univariada. 3omos cientificamente treinados a analisar as variveis isoladamente e a partir desta anlise fa!er infer&ncias sobre a realidade. Esta simplifica"o tem vantagens e desvantagens. $uando um fen)meno depende de muitas variveis, geralmente este tipo de anlise falha, pois no basta conhecer informa"*es estat0sticas isoladas, mas , necessrio tamb,m conhecer a totalidade destas informa"*es fornecida pelo con#unto das variveis. %s rela"*es e+istentes entre as variveis no so percebidas e assim efeitos antag)nicos ou sinerg,ticos de efeito mtuo entre variveis complicam a interpreta"o do fen)meno a partir das variveis consideradas.

-or,m, no caso restrito de variveis independentes entre si , poss0vel, com ra!ovel seguran"a, interpretar um fen)meno comple+o usando as informa"*es estat0sticas de poucas variveis. %s informa"*es estat0sticas mais relevantes neste tipo de anlise so as medidas de tend&ncia central e de disperso dos dados. O desenvolvimento tecnolgico oriundo das descobertas cient0ficas tem alavancado o prprio desenvolvimento cient0fico, ampliando em vrias ordens de grande!a a capacidade de obter informa"*es de acontecimentos e fen)menos que esto sendo analisados. Uma grande massa de informa"o deve ser processada antes de ser transformada em conhecimento. -ortanto, cada ve! mais estamos necessitando de ferramentas estat0sticas que apresentem uma viso mais global do fen)meno que aquela poss0vel numa abordagem univariada. % denomina"o 1%nlise

.ultivariada1 corresponde a um grande nmero de m,todos e t,cnicas que utili!am simultaneamente todas as variveis na interpreta"o terica do con#unto de dados obtidos. -ara que no ha#a qualquer mistifica"o dos m,todos de anlise multivariada conv,m lembrar que estes m,todos padecem dos mesmos problemas de toda a estat0stica. % estat0stica tem uma quasi-circularidade pouco e+plorada nos te+tos/ pesquisamos para di!er algo significativo sobre o universo que elegemos, por,m a pesquisa s ser significativa se conhecermos suficientemente o universo para escolhermos adequadamente as variveis e as condi"*es de amostragem. % ob#etividade da pesquisa cient0fica s come"a depois da escolha das variveis e das metodologias de anlise, antes

disto 4 atividade cient0fica , completamente sub#etiva. Obviamente, o resultado de toda pesquisa cientifica est contaminada por este vi,s de nossa sub#etividade. -ara entender melhor, vamos e+emplificar com a anlise de gua de um rio. O pesquisador piauiense no tem motivos para analisar mercrio nos rios -oti ou -arna0ba pois no h atividade de garimpo nas pro+imidades destes rios. 5o havendo registro conhecido de curtume ou de outra atividade industrial espec0fica muito dos 0ons metlicos no sero pesquisados. % mat,ria org6nica ser determinada de forma global e no se investiga subst6ncias espec0ficas, a no ser que ha#a ind0cios de alguma contamina"o. 7onsiderando que aquilo que no se investiga #amais ser descoberto, entende-se a sub#etividade de um resultado de uma anlise de gua pelo que se

dei+ou de di!er e a sua ob#etividade pelo que foi dito no laudo t,cnico de anlise.
Estatstica

Os diversos m,todos de anlise multivariados guardam entre si a necessidade de implementa"o computacional dos fundamentos tericos que sub#a!em em suas abordagens. % comple+idade matemtica, prpria dos m,todos multivariados, sugere, como medida de bom senso, uma descri"o desmatemati!ada de seus contedos, remetendo ao uso do soft8are estat0stico o trabalho enfadonho do clculo. Os programas estat0sticos bem constru0dos escondem o edif0cio matemtico atrs de uma interface amigvel ao pesquisador. O professor de estat0stica ho#e pode se dar ao lu+o de transmitir o significado estat0stico do tratamento de dados sem entediar os alunos com a profundidade das dedu"*es matemticas,

fa!endo uso abundante de e+emplos. 9este modo, , poss0vel trabalhar a parte mais nobre desta ci&ncia que , a infer&ncia estat0stica. Ou se#a, o que posso afirmar com os dados que tenho. Ou ainda, que conhecimento cient0fico produ!i no meu trabalho. :alve! neste momento tenhamos chegado ao parado+o interessante, a comple+idade matemtica pode ser substitu0da por uma simplicidade didtica. %trav,s do uso de soft8are estat0stico, , poss0vel pensar estat0stica sem ser estat0stico. Obviamente esta seria uma grosseria com nossos colegas se no for devidamente e+emplificado. 5o chamo eletricista para trocar l6mpada. 5o procuro m,dico para resfriado. Em outras palavras, as trivialidades estat0sticas 2 incluindo a anlise multivariada 2 esto ao alcance de todos e sem o constrangimento matemtico do passado.

Esta aparente facilidade esbarra em dois problemas de ordem prtica/ ;( as prateleiras cheias com a diversidade de m,todos estat0sticos confundem o usurio que no consegue identificar a melhor solu"o para seu problema. 5este caso, o estat0stico se transforma em psiclogo e pergunta/ 1qual o seu problema<1, ou 1o que voc& pretende mostrar em sua pesquisa<1. 9epois aponta a ferramenta adequada. =( O usurio no conhece suficientemente o sistema de trabalho e por isso no consegue fa!er uma infer&ncia adequada. 5este caso, o estat0stico no pode a#udar, pois o ob#eto de pesquisa em si foge de sua especialidade. $uando no h conhecimento terico pr,vio do sistema, as dificuldades come"am logo na amostragem, no in0cio do trabalho cient0fico. > importante ressaltar que ningu,m fa! ci&ncia sem e+pectativa. Esta surge do conhecimento

terico e do senso comum. % pesquisa cient0fica consiste em tradu!ir esta e+pectativa em problema, a partir do problema manifestar uma proposta de trabalho e, desta proposta, escolher um procedimento metodolgico adequado. % estat0stica , parte constitutiva deste procedimento metodolgico, estando presente no seu in0cio 'amostragem e sele"o das variveis( e no seu fim 'tratamento, anlise e infer&ncia sobre os dados(. ?ale lembrar que, por mais avan"ada que este#a a estat0stica, ainda no se pode abrir mo da intui"o e da e+peri&ncia precedente do pesquisador.
Mtodos multivariados

E+istem vrios m,todos de anlise multivariada com finalidades bem diversas entre si. -ortanto, voltamos ao primeiro passo, que , saber que conhecimento se pretende gerar. Ou melhor, o que se pretende afirmar a respeito dos dados.

-ara e+emplificar esta diversidade, vamos propor alguns ob#etivos e indicar alguns m,todos poss0veis. $uando o interesse , verificar como as amostras se relacionam, ou se#a, o quanto estas so semelhantes segundo as variveis utili!adas no trabalho, destaco dois m,todos que podem ser utili!ados/ a anlise por agrupamento hierrquico '@7%( e a anlise por componentes principais '-7%(. $uando a finalidade principal , fa!er previso, por e+emplo, quando temos muitas variveis independentes e queremos encontrar uma varivel dependente, a regresso linear mltipla e redes neurais so m,todos indicados para esta situa"o. 7om uma finalidade bem diversa, e+istem m,todos de anlise multivariada que podem ser usados na etapa inicial de uma pesquisa, na prpria escolha das variveis que descrevero o sistema. Asto , muito comum nos casos em que um processo necessita ser

otimi!ado. 9entre os m,todos que servem para otimi!a"o, citamos o simple+ e o plane#amento fatorial. Os m,todos estat0sticos so escolhidos de acordo com os ob#etivos da pesquisa, por isto, mostrar, predi!er ou otimi!ar so obtidos por diferentes m,todos. -ortanto, a estat0stica multivariada, com os seus diferentes m,todos, difere de uma prateleira de supermercado abarrotada de produtos com a mesma fun"o, pois cada m,todo tem sua fundamenta"o terica e sua fai+a de aplicabilidade. ?amos apresentar aqui dois destes m,todos para aprofundar melhor a teoria sub#acente e e+plicar suas aplica"*es.
Anlise de agrupamento Hierrquico (HCA)

% anlise de agrupamento hierrquico consiste no tratamento matemtico de cada amostra como um ponto no espa"o multidimensional descrito

pelas variveis escolhidas '.oita 5eto, B. .., .oita, Cra!iella 7iaramella, 1Uma Antrodu"o 4 %nlise E+ploratria de 9ados .ultivariados1, Qumica Nova, 3o -aulo, 3-/ v. =;, n. D, p. DEF-DEG, ;GGH(. :amb,m , poss0vel, nesta t,cnica, tratar cada varivel como um ponto no espa"o multidimensional descrito pelas amostras, ou se#a, podemos ter agrupamento de amostras ou de variveis de acordo com o interesse em cada situa"o. $uando uma determinada amostra , tomada como um ponto no espa"o das variveis, , poss0vel calcular a dist6ncia deste ponto a todos os outros pontos, constituindo-se assim uma matri! que descreve a pro+imidade entre todas as amostras estudadas. E+istem vrias maneiras de calcular a dist6ncia entre dois pontos, a mais conhecida e utili!ada , a dist6ncia euclidiana, pois corresponde ao

sentido trivial de dist6ncia no plano. Ielembrando que, para duas variveis, corresponde a aplica"o do teorema de -itgoras 'a=Jb= K c=(/ O comprimento da hipotenusa 'a( , igual 4 rai! quadrada da soma dos quadrados dos comprimentos dos catetos 'b e c(. Laseada nesta matri! de pro+imidade entre as amostras, se constri um diagrama de similaridade denominado dendrograma 'dendr'o( J rvore(. E+istem vrias maneiras de aglomerar matematicamente estes pontos no espa"o multidimensional para formar os agrupamentos hierrquicos. 7ada um corresponde a um algoritmo espec0fico 'ou se#a, o modo particular como os clculos sero feitos pelo computador(, que usa as informa"*es da matri! de pro+imidade para criar um dendrograma de similaridade. % interpreta"o de um dendrograma de similaridade entre amostras

fundamenta-se na intui"o/ duas amostras pr+imas devem ter tamb,m valores semelhantes para as variveis medidas. Ou se#a, elas devem ser pr+imas matematicamente no espa"o multidimensional. -ortanto, quanto maior a pro+imidade entre as medidas relativas 4s amostras, maior a similaridade entre elas. O dendrograma hierarqui!a esta similaridade de modo que podemos ter uma viso bidimensional da similaridade ou dissimilaridade de todo o con#unto de amostras utili!ado no estudo. $uando o dendrograma constru0do , das variveis, a similaridade entre duas variveis aponta forte correla"o entre estas variveis do con#unto de dados estudado. Os dendrogramas de amostras so mais comuns. % aplica"o da anlise de agrupamento hierrquico, quando temos variveis de escalas diferentes, deve ser precedida por um tratamento

pr,vio dos dados. $uando no , feito o pr,tratamento, as variveis com valores num,ricos mais altos sero mais importantes no clculo que as variveis com valores num,ricos mais bai+os. O pr,-tratamento mais comumente empregado , a transforma"o M, que transforma as medidas de cada varivel de tal modo que o con#unto de dados tenha m,dia !ero e vari6ncia um. % finalidade deste procedimento , equali!ar a import6ncia estat0stica de todas as variveis utili!adas. %s dificuldades matemticas envolvidas nestes clculos, ho#e so removidas pelos pacotes estat0sticos de grande amplitude e facilidade de uso, como , o caso do 3-33 'StatisticalPackage for the Social Sciences(. O 3-33 fornece todas as ferramentas para a obten"o do dendrograma de similaridade incluindo as diversas op"*es de dist6ncia,

m,todos de aglomera"o e modos de transforma"o dos dados originais.


Anlise de componentes principais ( CA)

% anlise de componentes principais , uma t,cnica estat0stica poderosa que pode ser utili!ada para redu"o do nmero de variveis e para fornecer uma viso estatisticamente privilegiada do con#unto de dados. % anlise de componentes principais fornece as ferramentas adequadas para identificar as variveis mais importantes no espa"o das componentes principais. Os fundamentos da anlise de componentes principais sero apresentados descrevendo os passos matemticos e estat0sticos a partir das necessidades de interpreta"o adequada da matri! de dados. O entendimento e+austivo do assunto requer o conhecimento de opera"*es

com matri!es e por isso optamos por uma abordagem conceitual usando as no"*es de lgebra linear. Um ponto no grfico cartesiano , representado por valores das coordenadas + e N. 5o caso de um grfico tridimensional, a apresenta"o de um ponto corresponde aos valores das coordenadas +, N e !. :radu!indo isto para o mundo das amostras e das variveis, o ponto , uma amostra e os valores em cada uma das coordenadas correspondem aos valores das variveis medidas. -ara e+emplificar isto, vamos supor que este#amos medindo duas propriedades f0sicas como o ponto de fuso e o ponto de ebuli"o de vrias mol,culas. % mol,cula de gua ficaria locada nas coordenadas 'O o7 , ;OO o7( deste grfico. O lcool et0lico ficaria locado nas coordenadas '-;;D o7, FH o7( e assim por diante. 7aso se queira transformar a escala do ponto de

fuso para Pelvin e a escala do ponto de ebuli"o para Qahrenheit, a representa"o da mol,cula de gua continua a mesma em rela"o 4s outras mol,culas, embora mudem os ei+os coordenados. Ou se#a, a estrutura dos dados no , alterada por uma transforma"o de coordenadas '%ne+o(. % anlise de componentes principais consiste em reescrever as variveis originais em novas variveis denominadas componentes principais, atrav,s de uma transforma"o de coordenadas. % transforma"o de coordenadas , um processo trivial quando feito usando matri!es. % transforma"o matemtica das coordenadas pode ser feita de diversas maneiras conforme o interesse. % transforma"o das variveis originais em componentes principais tem algumas especificidades que e+plicaremos agora.

Os componentes principais so as novas variveis geradas atrav,s de uma transforma"o matemtica especial reali!ada sobre as variveis originais. Esta opera"o matemtica est dispon0vel em diversos soft8ares estat0sticos especiali!ados. 7ada componente principal , uma combina"o linear de todas as variveis originais. -or e+emplo, um sistema com oito variveis, aps a transforma"o, ter oito componentes principais. 7ada uma destas componentes principais, por sua ve!, ser escrita como uma combina"o linear das oito variveis originais. 5estas combina"*es, cada varivel ter uma import6ncia ou peso diferente. 9uas so as caracter0sticas das componentes principais que as tornam mais efetivas que as variveis originais para a anlise do con#unto das amostras '-rado, -. A., Re8insohn, :homas .ichael, 7armo, I. R., @ogan, 9. B. 1Ordena"o

.ultivariada na Ecologia e seu Uso em 7i&ncias %mbientais.1 Ambiente e Sociedade, 7ampinas, 3-/ v.;O, p. EG-HS, =OO=(. %s variveis podem guardar entre si correla"*es que so suprimidas nas componentes principais. Ou se#a, as componentes principais so ortogonais entre si. 9este modo, cada componente principal tra! uma informa"o estat0stica diferente das outras. % segunda caracter0stica importante , decorrente do processo matemtico-estat0stico de gera"o de cada componente que ma+imi!a a informa"o estat0stica para cada uma das coordenadas que esto sendo criadas. %s variveis originais t&m a mesma import6ncia estat0stica, enquanto que as componentes principais t&m import6ncia estat0stica decrescente. Ou se#a, as primeiras componentes principais so to mais importantes que podemos at, despre!ar as demais. 9estas caracter0sticas podemos compreender como a

anlise de componentes principais/ a( podem ser analisadas separadamente devido 4 ortogonalidade, servindo para interpretar o peso das variveis originais na combina"o das componentes principais mais importantes b( podem servir para visuali!ar o con#unto da amostra apenas pelo grfico das duas primeiras componentes principais, que det&m maior parte da informa"o estat0stica.
Comparao CA e HCA

% anlise de componentes principais e a anlise de agrupamento hierrquico so t,cnicas de anlise multivariada com fundamentos tericos bem diferentes, podendo ser aplicadas independentemente. Estas t,cnicas podem at, ser complementares na informa"o sobre o con#unto de dados, dependendo do sistema analisado. %mbas fornecem a viso mais global poss0vel das amostras dentro do con#unto de dados,

conforme as variveis usadas '7a!ar, I. %. 1%n E+ercise on 7hemometrics for a $uantitative %nalNsis 7ourse1. Journal of Chemical Education, .adison, TA/ v. HO, n. G, p. ;O=E;O=G, =OOS(.
!egresso "inear m#ltipla de componentes principais

% regresso linear mltipla tamb,m , uma t,cnica multivariada cu#a finalidade principal , obter uma rela"o matemtica entre uma das variveis 'a varivel dependente( e o restante das variveis que descrevem o sistema 'variveis independentes(. 3ua principal aplica"o, aps encontrar a rela"o matemtica , produ!ir valores para a varivel dependente quando se t&m as variveis independentes.Ou se#a, ela pode ser usada na predi"o de resultados. Obviamente, a soma das contribui"*es de diversas variveis para uma determinada predi"o pode tamb,m ser

feita usando as componentes principais, pois as mesmas t&m a vantagem de poder ser tratadas de modo completamente independente. -ortanto, , poss0vel tamb,m fa!er regresso linear mltipla das componentes principais.
Concluso

Ob#etivos bem precisos, desde o in0cio da pesquisa, a#udam na consecu"o do trabalho e posterior tratamento estat0stico. .esmo quando o pesquisador no tem qualquer habilidade ou conhecimento de estat0stica, no pode dei+ar na mo do estat0stico o seu con#unto de dados como se houvesse algum procedimento mgico para e+trair informa"*es daquele sistema. O ideal , o estabelecimento de um dilogo continuo entre pesquisador e estat0stico para o primeiro apontar com clare!a onde quer chegar e o que dese#a di!er do sistema e o segundo informar os limites e possibilidades das t,cnicas estat0sticas.

J. M. Moita Neto
$moita%uol&com&'r

Ane(o

:ransforma"o de coordenadas no modificam a estrutura dos dados 2 .udan"a de escala de temperatura

Você também pode gostar