Você está na página 1de 215

ANLISE MULTIVARIADA DA

TEORIA PRTICA

por

Lorena Vicini
Orientador: Adriano Mendona Souza

Santa Maria, RS, Brasil


2005

V635a Vicini, Lorena


Anlise multivariada da teoria prtica / Lorena
Vicini ; orientador Adriano Mendona Souza. - Santa
Maria : UFSM, CCNE, , 2005.
215 p. : il.
Originalmente apresentada como monografia do
autor (especializao-Universidade Federal de Santa
Maria, 2005)
Inclui referncias bibliogrficas
1. Estatstica 2. Estatstica Anlise multivariada
I. Souza, Adriano Mendona II. Ttulo.
CDU 519.237

Ficha catalogrfica elaborada por


Alenir Incio Goularte CRB-10/990
Biblioteca Central da UFSM

2005
Todos os direitos autorais reservados a Lorena Vicini e Adriano Mendona Souza. A
reproduo de partes ou do todo deste trabalho s poder ser com autorizao por
escrito do autor.
Fone (0xx) 54 9961-8410 ou (0xx) 55 99743167;
End. Eletr: lorenavicini@pop.com.br, amsouza@smail.ufsm.br

SOBRE OS AUTORES
Os autores so formados em matemtica, com especializao em Estatstica
e Modelagem Quantitativa no Departamento de Estatstica UFSM, Adriano
(amsouza@smail.ufsm.br) realizou o Mestrado em Engenharia de Produo
PPGEP - UFSM, a longo tempo atrs, e doutorado tambm em Engenharia de
Produo na UFSC e atuou como pesquisador na Texas A&M University Texas.
Lorena (lorenavicini@pop.com.br) est realizando o curso de Mestrado no
PPGEP UFSM e tem perceptivas de continuar se aprimorando. Os dois so
colegas de trabalho no Departamento de Estatstica e desenvolvem a maioria de
suas pesquisas com a aplicao das tcnicas multivariadas. Os dois pertencem a
dois grupos de pesquisa que so o Ncleo de Estatstica Aplicada e Ncleo de
Estudos do Agro negcio Brasileiro.

NOTA DOS AUTORES


A estatstica mostra-se, cada vez mais, como uma poderosa ferramenta para
a anlise e avaliao de dados, em vrias reas do conhecimento, sendo muitas
vezes um tanto difcil para os profissionais trabalharem conceitos e elaborarem
exemplos prticos, devido limitao de materiais didticos que expressem, com
simplicidade e clareza, mtodos e procedimentos da aplicao de certas tcnicas
multivariadas, que s passaram a ser utilizadas, em larga escala, a partir do advento
dos computadores.
Embora a estatstica multivariada tenha surgido por volta de 1901, apenas
nos dias de hoje consegue-se desenvolver e aplicar essa tcnica, pois sem o auxilio
de programas computacionais no seria possvel realizar to rpido, e com tanta
clareza, os grficos que possibilitam estudar o inter-relacionamento das variveis.
Pode-se verificar, no decorrer da pesquisa, que as tcnicas de anlise de
agrupamentos, e anlise de componentes principais, so tcnicas matemticas, com
grande fundamentao na lgebra e na geometria, o que muitas vezes faz com que
os estatsticos no considerem como tcnica estatstica. Por outro lado, figuram,
quase sempre, em congressos nacionais e revistas especializadas, que tratam de
assuntos sobre estatstica.
A anlise fatorial, que muitas vezes confundida com anlise de
componentes principais, pelo fato de um dos modos de extrao de fatores ser a de
componentes principais, considerada uma tcnica estatstica, pois ela pressupe a
existncia de um modelo, permite que se faa inferncias e cumpre com algumas
pressuposies bsicas sobre as variveis em anlise, como a multinormalidade dos
dados.
Nos dias atuais, o uso dessas tcnicas est bastante consolidado, mas
deve-se ter o cuidado de que no basta se observar um conjunto de variveis e
aplicar tcnicas multivariadas, simplesmente, com o intuito de apresentar a tcnica e
valorizar a pesquisa que se est realizando. H a necessidade de que exista uma
estrutura de correlao entre as variveis, pois, se as mesmas no estiverem ligadas
entre si, tem-se que utilizar uma anlise univariada, uma vez que esta, se bem
aplicada, capaz de fornecer um nvel muito bom de informao.
A estatstica univariada, em nenhum momento deve ser dispensada, quando
se realiza um trabalho estatstico, pois por meio da anlise exploratria de dados

que ser possvel conhecer as variveis em estudo. Como se sabe, a anlise


multivariada uma tcnica exploratria e, devido a isso, a anlise univariada ser
til, tambm, para realizar um estudo confirmatrio.
Com o material didtico, que est sendo apresentado, fez-se uma ampla
reviso de literatura, levando-se em considerao textos clssicos e atuais, pois
procura-se revelar, ao mximo, essa tcnica, que, muitas vezes, obscura para os
alunos, pesquisadores e profissionais que a utilizam. O uso do software foi
indispensvel, pois sem ele no seria possvel a realizao dos estudos de caso.
Embora trabalhando-se com programas diferentes, existe uma similaridade entre
eles. Isto , ao se saber bem interpretar os resultados de um, no se ter problemas
ao se interpretar resultados de outro.
Devido crescente procura sobre a anlise multivariada e a busca de
material didtico que esteja disponvel para pesquisas nesta rea, desenvolve-se
este material, que traz, passo a passo o desenvolvimento das tcnicas de anlise de
agrupamentos, anlise fatorial e anlise de componentes principais, pois sabe-se
que muitos materiais existem e mostram como aplicar as tcnicas, mas poucos
dizem como estas so desenvolvidas.
A estatstica, por ser multidisciplinar, est inserida em vrias reas do
conhecimento, por isso faz-se necessrio a sua aplicao, o seu entendimento e sua
interpretao como ferramenta de pesquisa.
So apresentados exemplos prticos elaborados de forma clara, para que
todos que fizerem uso deste material possam compreender em que condies e
como podero ser aplicadas as tcnicas aqui apresentadas, bem como interpretar os
resultados obtidos nas anlises.
Este material poder ser utilizado por todos que necessitem analisar base de
dados relativamente complexas, ou seja, espaos de dimenso iguais ou superiores
ao R3, nos quais deve existir correlaes entre as variveis. Mostrou-se, tambm,
como interpretar essas variveis, para que todos possam utilizar com segurana os
mtodos da estatstica multivariada.
Em relao ao uso de programas utilizados, para aplicao da tcnica,
sugere-se que outros programas sejam utilizados, assim como os softwares, pois,
desta forma, estimula-se o pesquisador a criar as suas prprias rotinas
computacionais.

Ressalta-se que a utilizao de bibliografia adicional para a compreenso da


tcnica assim como a sua aplicao necessria, pois o entendimento do
pesquisador a cada leitura ser aprimorado e o mesmo poder tirar concluses mais
acertadas da pesquisa desenvolvida.
Este material didtico contempla a teoria e a prtica das tcnicas de
agrupamentos,

anlise

fatorial

de

componentes

principais,

voltado

necessidades de atender pesquisadores dos cursos de graduao, ps-graduao e


pesquisadores, que necessitem dessa ferramenta estatstica em suas pesquisas
para anlises em seu trabalho.
Alm da apresentao das trs tcnicas multivariadas apresentadas neste
material didtico, tambm apresenta-se quatro pesquisas em que foi aplicado os
mtodos multivariados, estas pesquisas j foram apresentadas em eventos
cientficos nacionais ou internacionais, portanto, j tiveram o crivo de avaliao dos
referidos eventos em que foram publicados.
No anexo apresenta-se uma reviso de lgebra que dever ser consultada
somente se o leitor achar necessrio, pois consideramos que se o mesmo no tiver
conhecimento sobre lgebra dificultar o bom entendimento das tcnicas.
Salientamos que este material de responsabilidade dos autores e que
quaisquer dvidas ou sugestes devem ser encaminhada para os mesmos, para que
com isso o material seja aprimorado.

Os autores

NDICE
Captulo 1

Introduo

Captulo 2

Apresentando os mtodos

13

2.1 Anlise de agrupamento AA


2.1.1 Alguns coeficientes de medidas de distncias

2.2 Anlise de componentes principais

13
21
27

2.3 Anlise Fatorial AF relacionando anlise de

Captulo 3

componentes Principais ACP

33

Compreendendo as tcnicas

41

3.1 Anlise de agrupamentos

Captulo 4

41

3.1.1 Mtodo de encadeamento nico, ou por ligao simples

42

3.1.2 Mtodo de encadeamento completo ou por ligao completa

49

3.1.3 Como escolher o melhor mtodo?

52

3.1.4 Interpretao do dendograma

58

3.2 Anlise de componentes principais

59

3.3 Aplicao da anlise de componentes principais

78

Aplicando o software passo-a-passo


4.1 Anlise de agrupamentos

95
95

4.2 Aplicao da anlise fatorial AF e anlise de componentes

Captulo 5

principais ACP

106

Realizando pesquisas

143

Artigo 1 Mtodos multivariados: uma metodologia para avaliar a 144


satisfao dos clientes da RBS-TV na regio noroeste do RS.
Artigo 2 Aplicao da anlise multivariada em dados de 161
rendimento de ensino
Artigo 3 Produo agrcola: uma sntese mediante tcnicas 169
estatsticas.
Artigo 4 Avaliao da fauna edfica em campo nativo mediante 178
tcnicas da anlise multivariada.
Captulo 6

Anexo

183

6.1 lgebra linear

183

6.1.1 Notao geral de uma matriz

183

6.1.2 Operaes com matrizes

186

6.2 Sistemas lineares


6.2.1 Matrizes associadas a um sistema linear

Captulo 7

196
197

6.3 Representao vetorial

204

6.4 Distncia euclidiana

208

6.5 Autovalores e autovetores de uma matriz

209

Bibliografia

215

1 INTRODUO
A anlise multivariada um vasto campo, no qual at os estatsticos
experientes movem-se cuidadosamente, devido esta ser uma rea recente
da cincia, pois j se descobriu muito sobre esta tcnica estatstica, mas
muito ainda est para se descobrir (MAGNUSSON, 2003).

Na vida, sempre que for necessrio tomar uma deciso, deve-se levar em
conta um grande nmero de fatores. Obviamente, nem todos esses pesam da
mesma maneira na hora de uma escolha. s vezes, por se tomar uma deciso
usando a intuio, no se identifica, de maneira sistemtica, esses fatores, ou essas
variveis, ou seja, no so identificadas quais as variveis que afetaram a tomada
de deciso.
Quando se analisa o mundo que nos cerca, identifica-se que todos os
acontecimentos, sejam eles culturais ou naturais, envolvem um grande nmero de
variveis. As diversas cincias tm a pretenso de conhecer a realidade, e de
interpretar os acontecimentos e os fenmenos, baseadas no conhecimento das
variveis intervenientes, consideradas importantes nesses eventos.
Estabelecer relaes, encontrar, ou propor, leis explicativas, papel prprio
da cincia. Para isso, necessrio controlar, manipular e medir as variveis que so
consideradas relevantes ao entendimento do fenmeno analisado. Muitas so as
dificuldades em traduzir as informaes obtidas em conhecimento, principalmente
quando se trata da avaliao estatstica das informaes.
Os mtodos estatsticos, para analisar variveis, esto dispostos em dois
grupos: um que trata da estatstica, que olha as variveis de maneira isolada a
estatstica univariada, e outro que olha as variveis de forma conjunta a estatstica
multivariada.
At o advento dos computadores, a nica forma de se analisar as variveis
era de forma isolada, e a partir dessa anlise fazer inferncias sobre a realidade.
Sabe-se que essa simplificao tem vantagens e desvantagens. Quando um
fenmeno depende de muitas variveis, geralmente esse tipo de anlise falha, pois
no basta conhecer informaes estatsticas isoladas, mas necessrio, tambm,
conhecer a totalidade dessas informaes fornecidas pelo conjunto das variveis e
suas relaes. Quando as relaes existentes entre as variveis no so

10

percebidas, efeitos desconhecidos, entre variveis, dificultam a interpretao do


fenmeno a partir das variveis consideradas.
O desenvolvimento tecnolgico, oriundo das descobertas cientficas, tem
apoiado o prprio desenvolvimento cientfico, ampliando, em vrias ordens de
grandeza, a capacidade de obter informaes de acontecimentos e fenmenos que
esto sendo analisados. Uma grande massa de informao deve ser processada
antes de ser transformada em conhecimento. Portanto, cada vez mais necessita-se
de ferramentas estatsticas que apresentem uma viso mais global do fenmeno,
que aquela possvel numa abordagem univariada. A denominao Anlise
Multivariada corresponde a um grande nmero de mtodos e tcnicas que utilizam,
simultaneamente, todas as variveis na interpretao terica do conjunto de dados
obtidos (NETO, 2004).
Existem vrios mtodos de anlise multivariada, com finalidades bem
diversas entre si. Portanto, volta-se ao passo inicial, que saber que conhecimento
se pretende gerar. Ou melhor, que tipo de hiptese se quer gerar a respeito dos
dados.
Os pesquisadores devem ter cautela ao trabalhar com as tcnicas de anlise
multivariada, pois a arte do seu uso est na escolha das opes mais apropriadas
para detectar os padres esperados nos seus dados, e as opes mais apropriadas
podem no estar no programa de seu computador. Leva-se algum tempo at
escolher as opes menos ruins em anlises multivariadas, recomenda-se que os
leitores exercitem, com cautela, durante o tempo necessrio para apreender as
limitaes dessas anlises, antes de tentar explorar suas grandes potencialidades
(MAGNUSSON, 2003).
Os mtodos multivariados so escolhidos de acordo com os objetivos da
pesquisa, pois sabe-se que a anlise multivariada uma anlise exploratria de
dados, prestando-se a gerar hipteses, e no tecer confirmaes a respeito dos
mesmos, o que seria uma tcnica confirmatria, como nos testes de hiptese, nos
quais se tem uma afirmao a respeito da amostra em estudo. Embora, s vezes,
possa ser utilizada para confirmao dos eventos (HAIR, et al, 2004). Portanto, a
estatstica multivariada, com os seus diferentes mtodos, difere de uma prateleira de
supermercado abarrotada de produtos com a mesma funo, pois cada mtodo tem
sua fundamentao terica e sua aplicabilidade. Quando o interesse verificar como
as amostras se relacionam, ou seja, o quanto estas so semelhantes, segundo as

11

variveis utilizadas no trabalho, destacam-se dois mtodos, que podem ser


utilizados: a anlise de agrupamento hierrquico e a anlise fatorial com anlise de
componentes principais.
Ao realizar um estudo estatstico quer seja univariado ou multivariado
sempre existir a perda de informao, pois no momento que se esta reduzindo um
conjunto de dados para ser representado pela sua media, no caso univariado se
perde informao. O mesmo ocorre quando se aplica uma tcnica multivariada, pois
ao reduzir a dimensionalidade de um problema tambm se perde informao. O
trade-off do pesquisador ento reside em obter a informao e saber que tem um
erro que foi quantificado ou no.
Na realidade o estudo multivariado no apresenta dificuldade em efetuar as
rotinas computacionais, mas sim em interpretar o novo conjunto de variveis e ser
capaz de traduzir as informaes que esto sendo reveladas, que ate ento no
eram percebidas por estarem em um espao dimensional maior do que trs.

12

13

2 APRESENTANDO OS MTODOS
Neste captulo, ser apresentada a reviso de literatura, dividida em itens,
servindo de suporte para o desenvolvimento das tcnicas apresentadas. No item
2.1, ser discutida a anlise de agrupamentos. No item 2.2, ser apresentada de
anlise de componentes principais. No item 2.3, apresenta-se a anlise fatorial,
abordando, os seus aspectos metodolgicos e suas aplicaes.

2.1 Anlise de agrupamentos - AA


Todos ns acreditamos que qualquer populao composta de segmentos
distintos. Se trabalhamos com as variveis adequadas, a anlise de
conglomerados nos ajudar a ver se existem grupos que so mais
semelhantes entre si do que com membros de outros grupos (Tom Myers,
consultor Burke Customer, Satisfaction Associates).

A AA, em sua aplicao, engloba uma variedade de tcnicas e algoritmos,


sendo que o objetivo encontrar e separar objetos em grupos similares. Essa
tcnica pode ser observada, por exemplo, se se tiver vrios produtos em uma
determinada prateleira de um supermercado, e distribuir esses produtos, na
prateleira, segundo suas caractersticas, de um mesmo composto, ou o mesmo
princpio ativo, por exemplo. A est-se a praticar AA. Agora, se esses produtos
estiverem espalhados por toda a prateleira, significa que se ter mais de uma
caracterstica, e, para que se possa un-los por caractersticas comuns, ser muito
trabalhoso, exigindo conceitos mais sofisticados de semelhana, e procedimentos
mais cientficos para junt-los. em relao a esse procedimento multidimensional
que se trabalhar.
Em alguns estudos, torna-se necessrio conhecer algumas caractersticas
de determinado grupo de um conjunto de elementos amostrais, principalmente
quando resultante de uma ou mais variveis. Quando se obtm mensurao de
diferente natureza, pode-se observar se h similaridades no conjunto de dados. Um
dos mtodos a AA, que poder ser utilizado para tais objetivos.
A anlise de agrupamentos estuda todo um conjunto de relaes
interdependentes.

Ela

no

faz

distino

entre

variveis

dependentes

independentes, isto , variveis do tipo causa e efeito, como na regresso.

14

Conforme Everitt (1974 apud BUSSAB, 1990), a AA pretende resolver o


seguinte problema: dada uma amostra de n objetos (ou indivduos), cada um deles
medindo segundo p variveis, procurar um esquema de classificao que agrupe os
objetos em g grupos. Deve ser determinado, tambm, o nmero de variveis desses
grupos. Portanto, a finalidade dessa tcnica reunir os objetos (indivduos,
elementos) verificados nos grupos em que exista homogeneidade dentro do grupo e
heterogeneidade entre os grupos, objetivando propor classificaes. Os objetos em
um grupo so relativamente semelhantes, em termos dessas variveis, e diferentes
de objetos de outros grupos. Quando utilizada dessa forma, a AA o inverso da
anlise de fatores, pelo fato de reduzir o nmero de objetos, e no o nmero de
variveis, concentrando-os em um nmero muito menor de grupos.
A AA constitui uma metodologia numrica multivariada, com o objetivo de
propor uma estrutura classificatria, ou de reconhecimento da existncia de grupos,
objetivando, mais especificamente, dividir o conjunto de observaes em um nmero
de grupos homogneos, segundo algum critrio de homogeneidade (REGAZZI,
2001). Muitas vezes, nessa tcnica, so feitas afirmativas empricas, que nem
sempre tm respaldo terico. Muitas tcnicas so propostas, mas no h, ainda,
uma teoria generalizada e amplamente aceita. Devido a isso, deve-se utilizar vrios
mtodos e comparar os resultados, para que a anlise dos dados seja realizada pela
tcnica mais adequada.
A AA um mtodo simples, calcada nos clculos de distncia, no entanto,
no requerem conhecimento estatstico para a sua aplicao, como o caso quando
se aplica anlise de varincia, de regresso, ou fatorial. O primeiro caso, AA no
requer o uso de um modelo, os demais casos necessitam. Para a aplicao da AA,
as estatsticas e os conceitos, a seguir, sero utilizados:
Esquema de aglomerao: Informa sobre objetos, ou casos a serem
combinados em cada estgio de um processo hierrquico de aglomerao.
Centride do agrupamento: Representam os valores mdios das variveis
para todos os casos, ou objetos em um agrupamento particular.
Centros de agrupamentos: So os pontos iniciais em um agrupamento
no-hierrquico. Os agrupamentos so construdos em torno desses
centros.
Composio de um Agrupamento: Indica o agrupamento ao qual
pertence cada objeto, ou caso (MALHOTRA, 2001, p.528).

Dendograma ou Fenograma: Tambm chamado de grfico em rvore.


Este, representa uma sntese grfica do trabalho desenvolvido, sintetizando a

15

informao, ocasionando uma pequena perda da mesma, pelo fato de ser uma
sntese. Embora acontea essa perda de informao, esse grfico de grande
utilidade para a classificao, comparao e discusso de agrupamentos.
H duas formas de se representar um dendograma: horizontal e
verticalmente.
No dendograma horizontal, as linhas verticais, ou o eixo y, representam os
grupos unidos por ordem decrescente de semelhana, e a posio da reta, na
escala ou o eixo x, indica as distncias entre os grupos que foram formados. O
dendograma lido de cima para baixo, quando for feito na forma horizontal.
Dendograma das variveis
Menor distncia euclidiana

Var1
Var5
Var2
Var3
Var8
Var6
Var7
Var4
Var9

10

20

30

40

50

60

70

Distncia entre os grupos

Figura 01 Dendograma horizontal.

Verifica-se, na Figura 01, que as variveis Var 1 e Var 5 so as que


possuem a maior semelhana, no dendograma, por possurem a menor distncia
euclidiana, sendo essas a formarem o primeiro grupo. Logo, em seguida, vm as
variveis Var 2, Var 3, Var 8, e, assim, sucessivamente, as variveis sero
agrupadas, por ordem decrescente de semelhana, ou seja, a Var 9 formou o ltimo
grupo do dendograma, o qual manteve-se distinto dos demais grupos formados, pelo
fato de essa varivel possuir pouca semelhana em relao s outras.
Como hoje, ainda, no existe uma teoria que diga em qual altura deve-se
fazer um corte no grfico, o pesquisador quem decide. Fazendo um corte entre as
alturas 20 e 30, obter-se- dois grupos homogneos distintos, o primeiro e maior,

16

que formado pelas variveis Var 1, Var 5, Var 2, Var 3, Var 8, Var 6, Var 7e Var 4,
j o segundo grupo formado apenas pela Var 9.
No dendograma vertical, a leitura feita da direita para esquerda, no qual as
linhas verticais, ou o eixo y, indicam as distncias entre os grupos foram formados, e
a posio da reta na escala, ou o eixo x, representa os grupos unidos por ordem
decrescente de semelhana, conforme Figura 02.
A interpretao desta Figura 02 anloga Figura 01, apenas muda no eixo
em que as variveis esto representadas.
Dendograma das variveis
menor distncia euclidiana
70

60

Distncia entre grupos

50

40

30

20

10

0
Var9

Var4

Var7

Var6

Var8

Var3

Var2

Var5

Var1

Figura 02 - Dendograma vertical.


Distncia entre centros de conglomerados. Indica a distncia que separa
os pares individuais de conglomerados. Sendo que os conglomerados que
se apresentam bem separados so distintos. So esses os desejveis para
a anlise.
Matriz de coeficientes de semelhana ou distncia. o tringulo inferior
,ou superior, de uma matriz que contm distncias emparelhadas entre
objetos ou casos (MALHOTRA, 2001, p.528).

O primeiro passo, para realizar a AA, consiste em formular o problema de


aglomerao, definindo as variveis sobre as quais se basear o agrupamento. Logo
aps, faz-se a coleta dos dados, que sero reunidos numa tabela com m colunas
(variveis) e n linhas (objetos). Antes de escolher a medida de distncia para a
anlise dos dados, necessrio verificar se os mesmos encontram-se com a mesma
unidade de medida. Caso contrrio, deve-se fazer a padronizao dos mesmos.
Escolhe-se, ento, uma medida apropriada de distncia, que ir determinar o quo
semelhantes, ou diferentes, so os objetos que esto sendo agrupados. Dentre

17

vrios processos de aglomerao, o pesquisador deve escolher aquele que mais


apropriado ao problema estudado.
Um mtodo melhor do que um outro quando o dendograma fornece uma
imagem menos distorcida da realidade. possvel avaliar o grau de deformao
provocado pela construo do dendograma calculando-se o coeficiente de
correlao cofentico (VALENTIN, 2000). Ou seja, o menor grau de distoro, ser
refletido pelo maior coeficiente cofentico, fornecido pela matriz fentica F, na qual
seus valores foram obtidos junto matriz de distncias inicial e pela matriz
cofentica C, sendo estes os valores obtidos junto matriz final das distncias. O
maior coeficiente cofentico possui a capacidade de evidenciar melhor a estrutura
dos dados, isto , a existncia de grupos.
A deciso sobre o nmero total de conglomerados, a constarem na anlise,
caber ao pesquisador, pois esta depender de cada pesquisa.
A estrutura bsica da aplicao da AA pode ser representada em etapas,
conforme mostra a Figura 03:

Formulao do problema

Tratamento dos dados

Escolha de um coeficiente de semelhana

Escolha de um processo de aglomerao

Avaliao e interpretao dos resultados

Figura 03 - Etapas para a realizao da anlise de agrupamentos.

Deve-se observar que essas etapas no so independentes. Algumas


vezes, ser necessrio voltar a etapas anteriores para corrigir e aprimorar algumas
etapas posteriores. Considera-se que as etapas descritas na Figura 03 formam um
procedimento metodolgico muito til para a realizao da AA.

18

Acredita-se que a formulao do problema seja a parte mais importante da


anlise de agrupamentos, ou seja, a escolha das variveis nas quais se basear o
processo de aglomerao. A incluso de uma, ou duas variveis, sem importncia,
poder vir a distorcer o resultado final da anlise. O conjunto de variveis escolhido
deve descrever a semelhana entre objetos, em termos relevantes para o problema
em pesquisa. Esta fase importante para a AA, pois onde se fixa o critrio de
homogeneidade. Segundo Bussab et al. (1190, p. 2), critrios distintos levam a
grupos homogneos distintos, e o tipo de homogeneidade depende dos objetivos a
serem alcanados.
Ao analisar os dados, em primeiro lugar deve-se verificar se eles devem ser
tratados. Por exemplo, deve-se observar se as variveis foram medidas em
unidades muito diferentes entre si. A soluo por aglomerado ser influenciada pelas
unidades de medida. Nesse caso, deve-se, antes de aglomerar as amostras,
padronizar os dados. Embora a padronizao possa remover a influncia da unidade
de medida, poder tambm reduzir as diferenas entre grupos em variveis que
melhor descrevam os conglomerados, pois as unidades associadas s variveis
podem, arbitrariamente, afetar o grau de similaridade entre os objetos, e a
padronizao dos dados faz com que esse efeito da arbitrariedade seja eliminado,
fazendo com que as variveis possuam a mesma contribuio no clculo do
coeficiente de similaridade entre os objetos.
Para que seja possvel padronizar as variveis, necessrio ter-se uma
matriz de dados com p variveis (j = 1, 2, ...., p) e n objetos (i = 1, 2, ...., n). Sendo
que, na matriz de dados, o valor do i-simo objeto e j-sima varivel ser denotado
por X ij , no qual o valor padronizado ser representado por Z ij . Onde as variveis
padronizadas tero mdia 0 e varincia constante 1, sendo esta a mais utilizada na
prtica, e representada pela seguinte funo:

Z ij =

X ij

Xj

(2.1)

Sj

sendo cada i fixo, no qual i = 1, 2, ..., n e j = 1, 2, ..., p


Para aplicar a AA, em um conjunto de dados, muito importante a escolha
de um coeficiente que quantifique o quo parecidos dois objetos so. Esse
coeficiente pode ser dividido em duas categorias, que dizem respeito estimao de

19

uma medida de similaridade, ou dissimilaridade, entre os indivduos, ou populaes,


a serem agrupados. Na medida de similaridade, quanto maior for o valor observado,
mais parecido sero os objetos. J na medida de dissimilaridade, quanto maior for o
valor observado, menos parecido sero os objetos. Um exemplo de medida de
similaridade o coeficiente de correlao, pois quanto maior seu valor, maior a
associao e de dissimilaridade a distncia euclidiana, pois quanto menor o valor
mais prximo os objetos esto uns dos outros.
Para que seja possvel a escolha do melhor coeficiente de semelhana,
necessrio ter-se uma matriz X ( n x p ) = X ij . Assim, cada vetor linha representa
uma unidade amostral (indivduos, tratamentos, espcies), e cada vetor coluna, uma
varivel (REGAZZI, 2001), como apresenta-se na Tabela 01.
Tabela 01 Matriz de dados n indivduos e p variveis.

Indivduos

Variveis
X1

X2

X3

X4

...

Xj

...

Xp

X11

X12

X13

X14

...

X1j

...

X1p

X21

X22

X23

X24

...

X2j

...

X2p

X31

X32

X33

X34

...

X3j

...

X3p

Xi1

Xi2

Xi3

Xi4

...

Xij

Xip

Xn1

Xn2

Xn3

Xn4

...

Xnj

...

Xnp

Fonte: Regazzi (2001)

O primeiro estgio, em muitos mtodos da anlise de agrupamentos, a


converso da matriz nxp de dados em uma matriz quadrada, onde n o nmero de
indivduos, de similaridade ou dissimilaridade, que so medidas da relao entre
pares de indivduos, ou populaes. Dado o valor de um conjunto de p variveis, em
cada interseco da i-sima fila, e da k-sima coluna dessa matriz, coloca-se a
medida de similaridade, ou dissimilaridade, entre o i-simo e k-simo indivduo. A
alta similaridade indica que dois indivduos so comuns em relao ao conjunto de

20

variveis, enquanto que a alta dissimilaridade indica o contrrio (MAXWEL, 1977


apud REGAZZI, 2001).
Algumas medidas de similaridade e dissimilaridade, que so utilizadas em
anlise de agrupamento, so citadas aqui. Ressalta-se que as expresses
matemticas, usadas na determinao dos coeficientes de distncia, sero dadas
em funo das variveis originais. Se forem usadas as variveis transformadas,
utilizam-se as mesmas frmulas, trocando Xij por Zij.
Como o objetivo da anlise de agrupamento reunir objetos semelhantes,
torna-se necessrio alguma medida para avaliar o quo semelhantes, ou diferentes
so os objetos. Geralmente, costuma-se avaliar a semelhana em termos de
distncia entre pares de objetos. Os objetos que possuem a menor distncia entre si
so mais semelhantes, um do outro, do que os objetos com a maior distncia. Essa
medida de semelhana fornecida pela distncia euclidiana.
Um grande problema da AA a escolha da medida de proximidade mais
adequada, sendo que as tcnicas so baseadas em diferentes medidas de
proximidade, e nem sempre chegam ao mesmo resultado. Devido a isso,
importante testar mais de uma medida de distncia, para que possa ser utilizada a
mais adequada para a anlise.
Segundo Regazzi (2001), embora a distncia euclidiana seja uma medida
de dissimilaridade, s vezes ela referida como uma medida de semelhana, pois
quanto maior seu valor, menos parecidos so os indivduos ou unidades amostrais.
A distncia entre dois pontos do plano pode ser definida como uma funo d,
que, a cada par de pontos P1 e P2, associa um nmero real positivo, d ( P1 , P2 ) , com
as seguintes propriedades:
i) se 0 d ( P1 , P2 ) e d ( P2 , P1 ) = 0, se e somente se, P1 = P2
ii) d ( P1 , P2 ) = d ( P2 , P1 ) (Simetria)
iii) d ( P1 , P2 ) d ( P1 , P3 ) + d ( P3 , P2 ) , onde P3 um ponto qualquer do plano
(Desigualdade Triangular).
Essas condies somente traduzem, em linguagem matemtica, as
propriedades que, intuitivamente, espera-se de uma funo que sirva para medir
distncias, isto , a distncia entre dois pontos deve ser sempre positiva, e s se
deve anular quando os pontos coincidirem.

21

A distncia medida de um ponto P1 at um ponto P2 deve ser a mesma, quer


essa medida seja feita de P1 a P2, ou de P2 a P1.
A terceira propriedade diz simplesmente que, dados trs pontos no plano, a
medida de qualquer dos lados do tringulo, determinado por estes pontos, menor
que a soma da medida dos outros dois. Por isso, a desigualdade, que traduz essa
condio, chamada desigualdade triangular.
A expresso dissimilaridade surgiu em funo de que, medida que

d ( P1 , P2 ) cresce, diz-se que a divergncia entre P1 e P2 aumenta, ou seja, torna-se


cada vez mais dissimilar.
Conforme Malhotra (2001, p. 529), a utilizao de diferentes medidas de
distncia pode levar a resultados diferentes de aglomerao. Assim, conveniente
utilizar medidas diferentes e comparar os resultados.
As medidas de distncia consideram que, se dois indivduos so similares,
eles esto prximos um do outro, ou seja, eles so comuns ao conjunto de variveis
e vice-versa.
O coeficiente de associao pode ser chamado de clculo da matriz,
denominada de matriz de similaridade, ou dissimilaridade, podendo esta ser
denominada de matriz de proximidade entre os elementos observados (similaridade,
distncia, dependncia). Exemplificando, pode-se considerar a distncia euclidiana
como uma medida de dissimilaridade, e o coeficiente de correlao como uma
medida de similaridade.
A seguir, esto apresentados alguns coeficientes de similaridade, usados
para estabelecer o conceito de distncia entre os objetos.

2.1.1 Alguns coeficientes de medida de distncia

Distncia Euclidiana

A distncia euclidiana , sem dvida, a medida de distncia mais utilizada


para a anlise de agrupamentos.
Considerando o caso mais simples, no qual existem n indivduos, onde cada
um dos quais possuem valores para p variveis, a distncia euclidiana entre eles
obtida mediante o teorema de Pitgoras, para um espao multidimensional.

22

Segundo Manly (1986), a distncia euclidiana, quando for estimada a partir


das variveis originais, apresenta a inconvenincia de ser influenciada pela escala,
de medida pelo nmero de variveis e pela correlao existente entre as mesmas.
Para contornar as escalas, faz-se a padronizao das variveis em estudo, para que
possuam a varincia igual unidade.
Considerando dois indivduos i e i , , a distncia entre eles dada por

d ii ,

p
2
= ( X ij X i, j ) 2
j =1

(2.2)

Distncia euclidiana mdia

Figura
- Distncia
mdia.
Figura
04 4
- Distncia
mdia

A distncia entre dois agrupamentos obtida pela mdia das distncias.


Aqui, possvel encontrar o valor da distncia atravs da mdia aritmtica. Atravs
dessa, a distncia entre cada conglomerado tem o mesmo peso. A distncia
euclidiana mdia dada por:

( X ij X i , j , ) 2
d =

X ij
j =1

(2.3)

Distncia de Mahalanobis D2

A similaridade entre as unidades amostrais (tratamentos, indivduos,


populaes), com relao a um conjunto de caractersticas correlacionadas, e a
distncia entre quaisquer pares de unidades amostrais, deve considerar o grau de
dependncia entre as variveis. A medida mais utilizada, para a quantificao das

23

distncias entre duas populaes, quando existe repetio de dados, distncia


de Mahalanobis (D2).
Conforme Cruz (1990), a distncia de Mahalanobis, considera a
variabilidade de cada unidade amostral, sendo recomendada para dados
provenientes de delineamento experimentais, e, principalmente, quando as variveis
so correlacionadas. Quando as correlaes entre as variveis forem nulas,
considera-se as variveis padronizadas, e a distncia de Mahalanobis D2
equivalente distncia euclidiana.
A forma mais simples de explicar como obter tal medida a forma matricial,
sendo que essa medida entre duas unidades amostrais (tratamentos, indivduos,
populaes), i e i , , fornecida pela notao:

) (

r
r ,
r
r
1
D = X i X i, S X i X i,
2
ii ,

em que :
r
,
X i = X i1 , X i 2 , ..... , X ip
r
X i , = X i , 1 , X i , 2 , ..... , X i , p

(2.4)

r
r
X i e X i , , so os vetores p-dimensionais de mdias i e i , , respectivamente, com
i i , e i , i , = 1, 2, ...., n.
onde S a matriz de disperso amostral comum a todas as unidades que, no caso
de delineamentos experimentais, trata-se da matriz de varincias e covarincias
residuais.
Embora Dii2, seja o quadrado da distncia de Mahalanobis, ser chamado de
distncia de Mahalanobis.
Admitindo-se distribuio multinormal p-dimensional, e homogeneidade na
matriz de varincia-covarincia nas unidades amostrais, pode-se chamar distncia
generalizada de Mahalanobis.

Coeficiente de Pearson

Outra forma de estabelecer o conceito de distncia, entre os objetos,


atravs do Coeficiente de Correlao de Pearson.

24

A medida de similaridade entre dois objetos R e T, denotada por S(R,T),


deve satisfazer as seguintes propriedades:

i) S(R,T) = S(T,R);
ii) S ( R, T ) 0 ;
iii) S(R,T) cresce medida em que a semelhana entre R e T cresce.
O coeficiente de Pearson, entre os objetos R e T, dado pela seguinte
equao:

X
rii , =

ij

X i, j

1
( X ij )( X i , j )
p j
j

2
2



1
1
X ij2 X ij X i2, j X i , j


p j
p j
j
j

(2.5)
.

Deve-se atentar para o fato de que o valor de rii , varia de 1 a +1.


Escolhida uma medida de distncia, ou de semelhana, passa-se a escolher
um processo de agrupamento, ou aglomerao.
A escolha do mtodo de agrupamento to difcil quanto a escolha do
coeficiente de associao. Dessa escolha depender a correta classificao de uma
amostra estar dentro de um grupo, ou de outro, que j tenha sido formado. Os
mtodos de agrupamento foram desenvolvidos com base nos modelos e dados
diversos.
H grande quantidade de mtodos de agrupamento. As diferenas entre os
mtodos existem em funo de diferentes formas de definir proximidade entre um
indivduo em um grupo, contendo vrios indivduos, ou entre grupos de indivduos.
Na AA, no se pode dizer que existe um mtodo que seja melhor para se
aplicar. O pesquisador deve decidir qual ser o mais adequado para o
desenvolvimento do seu trabalho, pois cada mtodo leva a um resultado. Os
mtodos de agrupamento mais utilizados so os hierrquicos.
Como se pode observar na Figura 05, os processos de agrupamento podem
ser divididos em dois grupos: hierrquicos ou no-hierrquicos. Conforme Malhotra
(2001, p. 529), a aglomerao hierrquica caracteriza-se pelo estabelecimento de
uma hierarquia, ou estrutura em forma de rvore, sendo esta a mais utilizada. Os
mtodos hierrquicos so divididos em aglomerativos e divisivos.

25

Figura 05 - Classificao dos processos de aglomerao.


Fonte: Malhotra (2001, p. 531).

O agrupamento aglomerativo tem incio em um grupo separado. Formam-se


os grupos reunindo-se os objetos em grupos cada vez maiores. O processo continua
at que todos os objetos sejam membros de um nico grupo, sendo esse mtodo
seqencial, onde os objetos so reunidos um aps o outro, respeitando uma
determinada seqncia de aglomerao. O critrio bsico da fuso entre um objeto
e um grupo, ou entre dois grupos, sempre o mesmo: sero reunidos os grupos que
tm maior similaridade entre si. O problema : como calcular esta similaridade? O
mtodo

de

clculo

depende

do

mtodo

de

aglomerao

escolhido

(VALENTIN, 2000).
No agrupamento divisivo, todos os objetos partem de um grupo gigante, e
estes so subdivididos em dois subgrupos, de tal forma que exista o mximo de
semelhana entre os objetos dos mesmos subgrupos e a mxima dissimilaridade
entre elementos de subgrupos distintos. Esses subgrupos so, posteriormente,

26

subdivididos em outros subgrupos dissimilares. O processo repetido at que haja


tantos subgrupos quantos objetos (MALHOTRA, 2001).
O

procedimento

bsico,

de

todos

os

mtodos

aglomerativos

de

agrupamento, similar. Inicia-se com o clculo de uma matriz de distncias entre as


variveis e finaliza-se com um dendograma, no qual possvel verificar as fuses
sucessivas dos indivduos, at os indivduos formarem um nico grupo (REGAZZI,
2001).
Os mtodos aglomerativos so de uso comum. Estes so constitudos de
mtodos de encadeamento, mtodos de erros de somas de quadrados, ou mtodos
de varincia e mtodos centrides.
Os mtodos de encadeamento compreendem:
O mtodo do encadeamento nico (Single Linkage), que se baseia na
distncia mnima, regra do vizinho mais prximo. Os dois primeiros objetos
agrupados so os que apresentam menor distncia entre si. Identifica-se a menor
distncia agrupando-se o terceiro objeto com os dois primeiros, ou formando um
novo grupo de dois objetos. Em cada estgio a distncia entre dois grupos definida
como a distncia entre seus dois pontos mais prximos. Dois grupos podem
incorporar-se em cada estgio por meio do encadeamento mais curto entre eles.
Continua-se o processo at que todos os objetos, estejam em um nico grupo.
O mtodo do encadeamento completo (Complete Linkage) semelhante ao
encadeamento nico, embora se baseie na distncia mxima entre os objetos ou o
mtodo do vizinho mais afastado. Neste, a distncia entre dois grupos calculada
entre seus dois pontos mais afastados.
O mtodo do encadeamento mdio semelhante aos mtodos
anteriores, embora a distncia entre dois grupos se defina como a mdia da
distncia entre todos os pares de objetos, onde cada membro de um par
provm de cada um dos grupos. No mtodo de encadeamento mdio so
utilizadas informaes sobre todos os pares de distncias, e no apenas da
distncia mnima ou mxima. Devido a este fato, perfeito em relao aos
mtodos de encadeamento nico e completo.
Os mtodos de varincia buscam gerar grupos que possam minimizar a
varincia dentro destes grupos. Dentre estes mtodos, est o de Ward, que
minimiza o quadrado da distncia euclidiana s mdias dos grupos. Um
grupo ser reunido a um outro se essa reunio proporcionar o menor
aumento da varincia intragrupo. Este mtodo de varincia calcula as
mdias de todas as variveis para cada grupo, escolhendo a que
proporciona a menor varincia. Calcula-se ento, para cada objeto, o
quadrado da distncia euclidiana, as mdias do agrupamento, conforme
Figura 04. Somam-se essas distncias para todos os objetos. Em cada
estgio, combinam-se os dois grupos que apresentar menor aumento na

27

soma global de quadrados dentro dos agrupamentos. Este mtodo


altamente eficiente na formao de grupos.
Outro mtodo de varincia utilizado o do Centride, que considera que a
distncia entre dois aglomerados a distncia entre seus centrides, que
nada mais que a mdia para todas as variveis. A cada agrupamento
novo de objetos, deve-se calcular um novo centride. Dentre os mtodos
hierrquicos, os que tm se revelado superior em relao aos outros so o
do encadeamento mdio e o de Ward.
A segunda forma de processo de aglomerao est nos mtodos nohierrquicos, que se caracterizam por procurar maximizar a
homogeneidade intragrupo, sem considerar a hierarquia entre grupos. Estes
mtodos costumam ser chamados de k mdias ou k-means clustering. kmeans clustering compreendem o limiar seqencial, o limiar paralelo e o
particionamento otmizador.
O mtodo limiar seqencial consiste em escolher um centro de
aglomerao, e todos os objetos a menos de um valor pr-determinado a
contar do centro so agrupados juntamente. A partir da, escolhe-se ento
um novo centro de aglomerao, ou repete-se o processo para os pontos
no aglomerados.
O mtodo limiar paralelo escolhe de uma s vez vrios centros de
aglomerao e os objetos dentro do limiar so agrupados com o centro
mais prximo. Todos os objetos que esto a menos de um valor prdeterminado do centro so agrupados juntamente.
O mtodo do particionamento otmizador difere dos anteriores, pois
permite a redistribuio posterior de objetos no agrupamento de modo a
otimizar um critrio global, tal como a distncia mdia dentro do grupo para
um dado nmero de agrupamentos.
A escolha de um mtodo de aglomerao e a escolha de uma medida de
distncia esto inter-relacionadas. Por exemplo, deve-se usar os quadrados
das distncias euclidiana com os mtodos de Ward e dos centrides
(MALHOTRA, 2001, p.530 e 531).

Neste trabalho, so abordados apenas dois mtodos, ou algoritmos de


agrupamento, que so:

 Mtodo do encadeamento nico (Single Linkage), ou, ainda, mtodo do vizinho


mais prximo.

Mtodo do encadeamento completo (Complete Linkage), ou, ainda, mtodo do


vizinho mais distante.

2.2 Anlise de Componentes Principais - ACP


A anlise de componentes principais tem por objetivo descrever os dados
contidos num quadro indivduos-variveis numricas: p variveis sero mediadas
com n indivduos. Esta considerada um mtodo fatorial, pois a reduo do nmero
de variveis no se faz por uma simples seleo de algumas variveis, mas pela
construo de novas variveis sintticas, obtidas pela combinao linear das
variveis inicias, por meio dos fatores (BOUROCHE, 1982).

28

A ACP uma tcnica matemtica da anlise multivariada, que possibilita


investigaes com um grande nmero de dados disponveis. Possibilita, tambm, a
identificao das medidas responsveis pelas maiores variaes entre os resultados,
sem perdas significativas de informaes. Alm disso, transforma um conjunto
original de variveis em outro conjunto: os componentes principais (CP) de
dimenses equivalentes. Essa transformao, em outro conjunto de variveis, ocorre
com a menor perda de informao possvel, sendo que esta tambm busca eliminar
algumas variveis originais que possua pouca informao. Essa reduo de
variveis s ser possvel se as p variveis iniciais no forem independentes e
possurem coeficientes de correlao no-nulos.
A meta da anlise de componentes principais abordar aspectos como a
gerao, a seleo e a interpretao das componentes investigadas. Ainda
pretende-se determinar as variveis de maior influncia na formao de cada
componente, que sero utilizadas para estudos futuros, tais como de controle de
qualidade, estudos ambientais, estudos populacionais entre outros.
A idia matemtica do mtodo conhecida h muito tempo, apesar do
clculo das matrizes dos autovalores e autovetores no ter sido possvel at o
advento da evoluo dos computadores. O seu desenvolvimento foi conduzido, em
parte, pela necessidade de se analisar conjuntos de dados com muitas variveis
correlacionadas.
Inicialmente, o objetivo da ACP foi o de encontrar linhas e planos que melhor se
ajustassem a um conjunto de pontos em um espao p-dimensional (PEARSON,
1901). Posteriormente, um trabalho sobre o desempenho de estudantes foi avaliado
por meio de uma seqncia de testes escolares, onde as variveis utilizadas na sua
maioria eram correlacionadas. Ento, a matriz de correlao e a matriz de
covarincia foram utilizadas para que fosse feita uma anlise simultnea. Na poca,
quando um estudante apresentava boas notas nos testes aplicados, pensava-se que
era porque ele possua algum componente psicolgico mais desenvolvido do que os
outros, facilitando assim algumas tarefas. Na Psicologia moderna, as variveis que
apresentavam uma maior influncia foram chamadas de fatores mentais. Na
Matemtica, foram denominadas de fatores e, depois, elas receberam o nome de

componentes para no serem confundidas com o mesmo termo usado na


matemtica. A componente era determinada pela combinao linear das variveis
que apresentassem a maior variabilidade na matriz de covarincia. Mais tarde, a

29

anlise que encontrava estas componentes e que maximizava a varincia dos dados
originais foi denominada por Hotelling de Principal Component Analysis
(HOTELLING, 1933).
Atualmente, um dos principais usos da ACP ocorre quando as variveis so
originrias de processos em que diversas caractersticas devem ser observadas ao
mesmo tempo. Esta tcnica vem sendo estudada por autores como MORRISON
(1976), SEBER (1984), REINSEL (1993), JACKSON (1980, 1981) e JOHNSON &
WICHERN (1992, 1998).
A idia central da anlise baseia-se na reduo do conjunto de dados a ser
analisado, principalmente quando os dados so constitudos de um grande nmero
de variveis inter-relacionadas. Conforme Regazzi (2001, p.1), procura-se
redistribuir a variao nas variveis (eixos originais) de forma a obter o conjunto
ortogonal de eixos no correlacionados. Essa reduo feita transformando-se o
conjunto de variveis originais em um novo conjunto de variveis que mantm, ao
mximo, a variabilidade do conjunto. Isto , com a menor perda possvel de
informao. Alm disso, esta tcnica nos permite o agrupamento de indivduos
similares mediante exames visuais, em disperses grficas no espao bi ou
tridimensional, de fcil interpretao geomtrica. A reduo de dimensionalidade
chamada de transformao de karhunnen-Love, ou Anlise de Componentes

Principal, no qual os autovalores so chamados de principal.


Na prtica, o algoritmo baseia-se na matriz de varincia-covarincia, ou na
matriz de correlao, de onde so extrados os autovalores e os autovetores.
A anlise de componentes principais tem a finalidade de substituir um
conjunto de variveis correlacionadas por um conjunto de novas variveis nocorrelacionadas, sendo essas combinaes lineares das variveis iniciais, e
colocadas em ordem decrescente por suas varincias, VAR CP1 > VAR CP2 > .... >
VAR CPp (VERDINELLI, 1980).
As novas variveis geradas denominam-se CP, e possuem independncia
estatstica e so no correlacionadas. Isso significa que, se as variveis originais
no esto correlacionadas, as ACP no oferece vantagem alguma. Variveis
dependentes quer dizer que o conhecimento de uma varivel importa para o
conhecimento da outra (SOUZA, 2000).
Para a determinao das componentes principais, necessrio calcular a
matriz de varincia-covarincia (), ou a matriz de correlao (R), encontrar os

30

autovalores e os autovetores e, por fim, escrever as combinaes lineares, que


sero as novas variveis, denominadas de componentes principais, sendo que cada
componente principal uma combinao linear de todas as variveis originais,
independentes entre si e estimadas com o propsito de reter, em ordem de
estimao

em

termos

da

variao

total,

contida

nos

dados

iniciais,

(REGAZZI, 2001).
O esquema descrito na Figura 06 servir de base para a aplicao da ACP.
X1
X2
X3

M atriz
R
ou

:
:

Encontrar

Encontrar

auto
valores

auto
vetores

Y1
Y2

Seleo
das
N ovas
V ariveis

Xp

:
:

Y3

Yp
P - com ponentes
P rincipais

P - variveis

A nlise de Com ponentes Principais


Figura 06 - Esquema da aplicao da anlise de componentes principais.
Fonte: SOUZA, Adriano Mendona (2000, p.25).

Supondo-se que na anlise que se est realizando exista apenas duas


variveis X1 e X2, conforme a Figura 07, observa-se o elipside de densidade de
probabilidade constante.

CP2

X2

CP1

-1
2
X
=K
' X

(elipside)

X1

Figura 07 - Elipside de densidade constante.


Fonte: LOPES (2001, p.31).

31

O primeiro componente corresponde ao maior eixo da elipse (CP1), e o


comprimento desse eixo proporcional a

1 . O eixo de menor varincia (CP2)

perpendicular ao eixo maior. Esse eixo chama-se segundo componente principal, e

2 . Assim, a anlise das componentes

seu comprimento proporcional a

principais toma os eixos X1 e X2 e os coloca na direo de maior variabilidade


(JOHNSON & WICHERN, 1992).
Para a gerao das componentes principais, deve-se ter uma matriz de
dimenso nxp, na qual observa-se que X1, X2,...,XP representam as variveis, e cada
uma das n unidades experimentais representam os indivduos, tratamentos, etc. O
conjunto de nxp medida origina uma matriz X, conforme mostrado na Tabela 02.
O primeiro estgio da ACP a converso da matriz nxp de dados em uma
matriz quadrada, onde n o nmero de indivduos e p representa um conjunto de
variveis.
Intuitivamente, percebe-se que, quanto maior for o nmero de variveis, e
quanto mais estas forem interdependentes entre si (algumas tm varincia grande,
algumas tm varincia mdia, e outras tm varincia pequena, e as correlaes
entre elas assumem valores muito diferentes entre si), ser mais fcil comparar
indivduos baseando-se nos valores dessas variveis, originais (REGAZZI, 2001).
Essa interdependncia representada pela matriz de varincia-covarincia , ou
pela matriz de correlao R.
Tabela 02 Matriz de dados de n indivduos e p variveis.
Variveis
Indivduos
X1
X2
X3
X4
...

Xj

...

Xp

X11

X12

X13

X14

...

X1j

...

X1p

X21

X22

X23

X24

...

X2j

...

X2p

X31

X32

X33

X34

...

X3j

...

X3p

Xi1

Xi2

Xi3

Xi4

...

Xij

Xip

Xn1

Xn2

Xn3

Xn4

...

Xnj

...

Xnp

Fonte: Regazzi 2001.

32

Seja a matriz de varincia-covarincia associada ao vetor aleatrio


r
X = [X1, X2,...,XP]. Se possuir o par de autovalores e autovetores estimados da

, X ) , onde
, X ) , (
, X ) , ... , (
amostra analisada, sero representados por (
1
1
2
2
p
p
0, e fornecero o i-simo componente principal dado por:

...

1
2
p

r
r
r
r
Yi = xi X = x1i X 1 + x 2i X 2 + ... + x pi X p , onde i = 1, 2, ... , p.
Com as escolhas de que:

Var (Yi ) = xi, xi =


i

i = 1, 2, ...., p

Cov(Yi , Yk ) = xi, x k = 0 i, k = 1, 2, .... , p


r
igual, a escolha do coeficiente do vetor correspondente X
Se algum
i
i
tambm ser, e, ento, Yi no nico.
Essa definio mostra que os CP, so no correlacionados e possuem
varincias iguais ao autovalor de (JOHNSON & WICHERN, 1992).
Para proceder a ACP, em casos populacionais, utiliza-se a matriz de
varincia covarincia . Porm, quando se tratar de um conjunto de dados
amostrais, a matriz ser estimada atravs da matriz de varincia-covarincia
r
amostral S, e o vetor mdia por X =[ X 1 , X 2 , ..., X p ] (SOUZA, 2000).
importante lembrar que, embora as tcnicas multivariadas que constam na
literatura tenham sido criadas com o objetivo de resolver problemas especficos,
como na rea de biologia e psicologia, essas podem ser utilizadas para resolver
muitos outros problemas prticos nas diversas reas do conhecimento. Na maioria
das vezes, os objetivos desses problemas prticos s so resolvidos mediante
aplicao de mais de uma tcnica multivariada, aplicadas em uma seqncia.
Dessa forma, interessante ter-se uma viso global de todas, ou quase
todas, tcnicas multivariadas. Entre as tcnicas multivariadas mais utilizadas esto:
anlise de agrupamentos, anlise de componentes principais, anlise de
discriminante, anlise de correspondncia, dentre outras.
Conforme Reis (1997), a aplicao da ACP e AF deve incluir:

As variveis includas na anlise;

As percentagens da varincia explicadas por cada uma das componentes


principais;

33

O nmero de componentes retidas e a proporo de varincia total por elas


explicada;

Uma tabela com a contribuio de cada varivel para cada componente (factor

loadings), antes e depois de ser aplicado um mtodo de rotao de fatores.

Fazer a interpretao de cada componente principal retido.

2.3 Anlise Fatorial - AF - relacionada anlise de componentes principais ACP

A AF formada por um conjunto de tcnicas estatsticas, e possui como


objetivo reduzir o nmero de variveis iniciais com a menor perda possvel de
informao. Em outras palavras, pode-se dizer que AF aplicada busca de
identificao de fatores num conjunto de medidas realizadas, sendo que esses
fatores identificados pela AF so uma descoberta feita pelo pesquisador.
Inicialmente, ele tem vrias medidas e no ser possvel identificar quais variveis
podero ser reunidas num fator. A AF quem vai descobrir isso, pois ela permite
identificar novas variveis, em um nmero reduzido em relao s variveis iniciais,
sem uma perda significativa de informao contida nos dados originais.
A verso clssica da AF determina os fatores ortogonais que descrevem
aproximadamente e sucessivamente os vetores-resposta de n indivduos a um
conjunto constitudo por m testes psicolgicos. As primeiras pesquisas realizadas
nesta rea foram desenvolvidas por Karl Pearson (1901) e por Charles Spearman
(1904). Sperman estudou a hiptese da existncia de um s fator de inteligncia e
da impossibilidade de medi-lo diretamente, ele desenvolveu esta anlise para que
fosse possvel estudar o fator inteligncia indiretamente a partir das correlaes
entre diferentes testes. Em 1947 Thurstone partiu da idia inicial de Spearman e
desenvolveu a AF, por acreditar que existe mais de um fator de inteligncia. Essa
anlise permite identificar mais de um fator nos dados iniciais.
A AF no se refere, apenas, a uma tcnica estatstica, mas a um conjunto de
tcnicas relacionadas, para tornar os dados observados mais claros para a
interpretao. Isso feito analisando-se os inter-relacionamentos entre as variveis,
de tal modo que essas possam ser descritas convenientemente por um grupo de
categorias bsicas, em nmero menor que as variveis originais, chamado fatores.

34

Os fatores podem ser denominados como um constructo, que pode ser uma
varivel no observada, escalas, itens, ou uma medida de qualquer espcie. Na
anlise, fatores explicam a varincia das variveis observadas, tal como se revelam
pelas correlaes entre as variveis que esto sendo analisadas.
Um dos mtodos mais conhecidos, para a extrao dos fatores, feito por
meio da anlise de componentes principais, que baseado no pressuposto que se
r
pode definir X vetores estatisticamente no correlacionados, a partir de
combinaes lineares dos p indicadores iniciais.
A ACP permite transformar um conjunto de variveis iniciais, correlacionadas
entre si, num outro conjunto de variveis no correlacionadas (ortogonais), que so
as componentes principais, que resultam das combinaes lineares do conjunto
inicial.
Tanto a anlise de componentes principais, quanto a anlise fatorial, so
tcnicas da anlise multivariada, que so aplicadas a um conjunto de variveis, para
descobrir quais dessas so mais relevantes, na composio de cada fator, sendo
estes independentes um dos outros. Os fatores, que so gerados, so utilizados de
maneira representativa do processo em estudo e utilizados para anlises futuras.
O objetivo da ACP no explicar as correlaes existentes entre as variveis,
mas encontrar funes matemticas, entre as variveis iniciais, que expliquem o
mximo possvel da variao existente nos dados e permita descrever e reduzir
essas variveis. J a AF explica a estrutura das covarincias, entre as variveis,
utilizando um modelo estatstico casual e pressupondo a existncia de p variveis
no-observadas e subjacentes aos dados. Os fatores expressam o que existe de
comum nas variveis originais (REIS, 1997).
A AF uma tcnica que aplicada para identificar fatores num determinado
conjunto de medidas realizadas, sendo utilizada, tambm, como uma ferramenta na
tentativa de reduzir um grande conjunto de variveis para um conjunto mais
significativo, representado pelos fatores. Esse mtodo determina quais variveis
pertencem a quais fatores, e o quanto cada varivel explica cada fator.
Essas duas tcnicas, ACP e AF, so sensveis a correlaes pobres entre
variveis, pois, neste caso, as variveis no apresentaro uma estrutura de ligao
entre elas. Logo, a correlao ser fraca e prejudicar as anlises, inviabilizando o
uso da tcnica, que tem como objetivo principal o estudo de conjuntos de variveis
correlacionadas.

35

Quando se trabalha com AF, deve-se levar em considerao que


coeficientes de correlao tendem a ser de menor confiana quando se faz clculos
de estimativas de amostra pequenas. Em geral, o mnimo ter cinco casos, pelo
menos, para cada varivel observada.
O primeiro passo a ser realizado, quando se aplica AF, verificar as
relaes entre as variveis, que pode ser feito utilizando-se o coeficiente de
correlao linear como medida de associao entre cada par de variveis. Conforme
Reis (1997), a matriz de correlao poder permitir identificar subconjuntos de
variveis que esto muito correlacionadas entre si no interior de cada subconjunto,
mas pouco associadas a variveis de outros subconjuntos. Nesse caso, utilizar a
tcnica de AF permitir concluir se possvel explicar esse padro de correlaes
mediante um menor nmero de variveis.
A AF exploratria, pois utilizada com o objetivo de reduzir a dimenso
dos dados, podendo, tambm, ser confirmatria, se for utilizada para testar uma
hiptese inicial de que os dados podero ser reduzidos a uma determinada
dimenso e de qual a distribuio de variveis, segundo essa dimenso
(REIS, 1997).
A ACP e a AF, quando utilizadas na forma direta, servem para a
identificao de grupos de variveis inter-relacionadas e para a reduo do nmero
de variveis. Em seu uso indireto um mtodo que serve para transformar dados. A
transformao de dados ocorre atravs da reescrita dos mesmos, com propriedades
que os dados originais no tinham.
Antes de aplicar a AF, deve-se levar em considerao certas premissas
sobre a natureza dos dados. Primeiramente, o pesquisador deve analisar a
distribuio de freqncia das variveis atravs de testes de ajuste da normalidade
(Kolmogorov-Smirnov), ou, at, fazer um simples exame de curvas da distribuio. O
pesquisador pode, ainda, fazer um grfico de disperso (scatterplot), fazendo um
contraste em relao aos valores observados com os esperados numa distribuio
normal (PEREIRA, 2001).
H, tambm, uma medida de adequao dos dados, muito importante,
sugerida por Kaiser-Meyer-Olkin Measure of Adequacy (KMO). O KMO serve para
avaliar o valor de entrada das variveis para o modelo, sendo que seu valor
possibilita prover resultados no alcance de 0,5 a 0,9, se se obtiver valores nesse

36

intervalo, ento as variveis podem ser utilizadas para realizar a AF. Para encontrar
o valor do KMO, utiliza-se a expresso:

(2.6)

2
ij

KMO =

2
ij

r
i

a
i

2
ij

sendo a razo da soma dos quadrados das correlaes de todas as variveis


dividida por essa mesma soma, acrescida da soma dos quadrados das correlaes
parciais de todas as variveis.
Onde:

rij = o coeficiente de correlao observado entre as variveis i e j.


a ij = o coeficiente de correlao parcial entre as mesmas variveis, que ,
simultaneamente, uma estimativa das correlaes entre os fatores. Os aij devero
estar prximos de zero, pelo fato de os fatores serem ortogonais entre si.
Quando as correlaes parciais forem muito baixas, o KMO ter valor
mnimo prximo a 1 e indicar perfeita adequao dos dados para anlise
fatorial. O teste do KMO possui valores que so considerados crticos
como se pode observar:
para valores na casa dos 0,90: a adequao considerada tima para
os dados da AF;
para valores na casa dos 0,80: a adequao considerada boa para os
dados da AF;
para valores na casa dos 0,70: a adequao considerada razovel
para os dados da AF;
para valores na casa dos 0,60: a adequao considerada medocre
para os dados da AF;
para valores na casa dos 0,50 ou inferiores: a adequao considerada
imprpria para os dados da AF;
O KMO uma medida de adequao que verifica o ajuste dos dados,
utilizando todas as variveis simultaneamente, e o seu resultado uma
informao sinttica sobre os dados.
Outro teste que poder ser utilizado para anlise fatorial, que tambm
verifica as premissas o de Bartlett Test of Sphericity (BTS), que testa a
hiptese da matriz de correlao ser uma matriz identidade, ou seja, a
diagonal principal igual a 1 e todos os outros valores serem zero, isto , seu
determinante igual a 1. Isso significa que no h correlao entre as
variveis. A hiptese nula poder ser rejeitada caso o adotado for igual a
5% e o valor encontrado for inferior ao valor de . O teste de Bartlett na
aplicao da ACP pressupe que se rejeite a hiptese nula:
H0 = P = I ou H0 =

=
= ..... =
(PEREIRA 2001, p. 124 e 125).

1
2
P

A anlise de correspondncia, a anlise cannica e a anlise fatorial


discriminante so, tambm, mtodos fatoriais, que levam a representaes grficas

37

e tero, por isso, traos comuns com ACP. O que diferencia a ACP que ela trata,
exclusivamente, de variveis numricas, que desempenham, todas, o mesmo papel,
enquanto a anlise de correspondncia trata de variveis qualitativas, nas anlises
cannicas e discriminante as variveis so repartidas em grupos bem distintos
(BOUROCHE & SAPORTA, 1982).
A AF possui, como princpio, cada varivel pode ser decomposta em duas
partes: uma parte comum e uma parte nica. A primeira a parte da sua variao
partilhada com outras variveis, enquanto a segunda especfica da sua prpria
variao. Dessa forma, uma diferena entre os dois mtodos parte do montante de
varincia analisada, na qual a ACP considera a variao total presente no conjunto
das variveis originais. Na AF, s retida a variao comum, partilhada por todas as
variveis (REIS, 1997).
A base fundamental para a anlise de fator comum ACP e AF que as
variveis escolhidas podem ser transformadas em combinaes lineares de um
conjunto de componentes (fatores) hipotticos, ou despercebidos. Os fatores podem
ser associados com uma varivel individual (fatores nicos), ou, ainda, associados
com duas ou mais das variveis originais (fatores comuns). As cargas so
responsveis por relacionar a associao especfica entre os fatores e as variveis
originais. Logo, pode-se concluir que o primeiro passo encontrar as cargas e a
soluo para os fatores, que aproximaro a relao entre as variveis originais e
fatores encontrados, sendo que as cargas so derivadas dos autovalores, que esto
associados s variveis individuais.
Para ter-se uma melhor visualizao das variveis, que melhor representem
cada fator, realizada uma rotao nos eixos, pois a AF busca colocar os fatores
em uma posio mais simples, com respeito s variveis originais, que ajudam na
interpretao de fatores. Essa rotao coloca os fatores em posies em que sero
associadas s s variveis relacionadas distintamente a um fator. Existem vrias
rotaes que podem ser realizadas para a matriz fatorial, varimax, quartimax e

equimax. So todas as rotaes ortogonais, enquanto as rotaes oblquas so noortogonais. A rotao varimax rotation busca minimizar o nmero de variveis com
altas cargas num fator, ou seja, maximiza a varincia da carga e , tambm, o mais
utilizado. Conforme Pereira (2001), a rotao da matriz no afeta a inrcia
(comunalidades) das variveis nem a percentagem de variaes explicadas pelos
fatores.

38

Antes de aplicar ACP e AF, o pesquisador deve tomar duas decises


importantes que so: o mtodo a ser utilizado para a extrao dos fatores e o
nmero de fatores para serem extrados.
Antes se falar da interpretao da AF, importante ter claro dois o conceitos:
o de ortogonalidade e o de carga fatorial.
O primeiro est relacionado com independncia, no qual e deve haver
dissociao entre variveis. E isso conseguido quando se realiza a ACP, onde
cada componente independente da outra. Por isso, a ACP , geralmente, utilizada
como uma tcnica para se extrair fatores.
O segundo conceito importante o de carga fatorial. A matriz de cargas
fatoriais um dos passos finais da anlise fatorial. A carga fatorial um coeficiente:
um nmero decimal, positivo ou negativo, geralmente menor do que um, que
expressa o quanto um teste, ou varivel, observada, est carregado, ou saturado,
em um fator. Entre outras palavras, pode-se dizer que: quanto maior for a carga em
cima de um fator, mais a varivel se identifica com o que quer que seja o fator.
Em resumo, a AF um mtodo para determinar o nmero de fatores
existente em um conjunto de dados, e serve para determinar quais testes, ou
variveis, pertencem a quais fatores.
A AF, em seus resultados, apresenta alguns conceitos que devem ser
entendidos, para que haja uma interpretao correta dos dados. Como neste
trabalho utiliza-se o software statistica, os resultados so apresentados com
conceitos em lngua inglesa. Conforme Pereira (2001), conceitos da AF:

eigenvalue corresponde aos autovalores e varincia total, que pode ser


explicada pelo fator. Ou seja, avalia a contribuio do fator ao modelo construdo
pela anlise fatorial. Se a explicao da varincia pelo fator for alta, existe uma
alta explicao desse fator ao modelo, se for baixa, existe uma baixa explicao
do fator ao modelo.

factor loading a proporo de variao da varivel, que explicada pelo fator,


ou, ainda, o quanto cada varivel contribui na formao de cada componente.

factor score so os autovetores que definem as direes dos eixos da mxima


variabilidade. Representam a medida assumida pelos objetos estudados na
funo derivada da anlise.

Communality, a medida de quanto da varincia, de uma varivel, explicada


pelos fatores derivados pela anlise fatorial. Avalia a contribuio da varivel ao

39

modelo construdo pela AF, ou seja, o quanto cada varivel participa na formao
da outra. Nas communality, os valores mais altos so os mais importantes para
anlise.

factor matrix a matriz de correlao entre as variveis originais e os fatores


encontrados.
Para que se possa nomear os fatores, deve-se olhar a pontuao dos

mesmos, individualmente, e ver quais variveis possuem as pontuaes mais altas.


Deve-se olhar, tambm, a pontuao do fator, para ver se as interpretaes iniciais
so confirmadas pela pontuao do fator.
A ACP adota a premissa de que a relao entre variveis e fatores linear.
Dessa forma, pode-se tentar interpretar um eixo, seja graficamente, por regresso
linear, entre as coordenadas das amostras e os autovetores de cada varivel, ou
seja, pelo clculo de um coeficiente de correlao no-paramtrico (Spearman, por
exemplo).
Para que se possa resolver a equao caracterstica, em AF, necessrio
fazer a inverso de matriz, o que no possvel com uma matriz singular.
A multicolinearidade e singularidade so assuntos derivados de uma matriz
de correlao, com alto grau de correlao entre as variveis. A multicolinearidade
acontece quando variveis so altamente correlacionadas, ou seja, acima de 0.90, o
que muito bom para a AF, e a singularidade acontece quando as variveis so
perfeitamente correlacionadas. Com multicolinearidade, os efeitos so aumentados,
as variveis independentes esto inter-relacionadas. Se a varivel perfeitamente
relacionada s outras variveis, ento a singularidade est presente.
Raramente os resultados da AF so todos publicados, pois nem todos
possuem uma contribuio significativa para a interpretao dos dados e
elaborao de concluses para o assunto que est sendo abordado.
Conforme Valentin (2000), as informaes, que devem constar nas
publicaes, so:

as dimenses da matriz de dados: nmero de variveis e indivduos;

a natureza dos dados e as transformaes eventuais;

as figuras dos planos fatoriais;

a necessidade de anlises preliminares para testar a estabilidade e, se for


preciso, eliminar certas variveis ou observaes.

40

Comentrios deste captulo


Nesse captulo 2, abordou-se os conceitos de anlise de agrupamentos,
anlise de componentes principais e anlise fatorial, que serviro de base para o
pleno desenvolvimento da aplicao prtica.
No captulo 3, apresenta-se como estas tcnicas so desenvolvidas
manualmente.

41

3 COMPREENDENDO AS TCNICAS
No captulo 3, item 3.1, apresenta-se o desenvolvimento de exemplo prticos
da anlise de agrupamentos, que consiste na reunio de elementos semelhantes.
No item 3.2, mostra-se conceitos e aplicao de exemplos prticos da anlise de
componentes principais, sendo que a principal meta, desta anlise, a reduo de
dimenso das variveis e a anlise fatorial, que busca fatores abstratos para a
representao do conjunto de dados.

3.1 Anlise de agrupamentos


Muitos algoritmos existem para formar os agrupamentos. Devido a existncia
de vrios critrios, para conceituar esses grupos, o pesquisador deve optar por
aquele que for mais adequado anlise em estudo.
Para aplicar a anlise de agrupamento, neste trabalho, optou-se por
apresentar os mtodos de agrupamento hierrquicos aglomerativos, que tem incio
com um grupo separado. Primeiramente, os objetos mais similares so agrupados
formando um nico grupo. Eventualmente, o processo repetido, e com o
decrscimo da similaridade, todos os subgrupos so agrupados, formando um nico
grupo com todos os objetos.
O desenvolvimento da AA ser concentrado nos mtodos hierrquicos
aglomerativos (Linkage Methods). Sero discutidos os mtodos de ligao simples
(mnima distncia ou vizinho mais prximo) e ligao completa (mxima distncia, ou
vizinho mais distante).
Conforme Ferreira (1996), nas etapas a seguir, apresenta-se um algoritmo
geral para os agrupamentos hierrquicos aglomerativos com n objetos (itens, ou
variveis)

Iniciar o agrupamento com n grupos, cada um com um nico elemento, e com


uma matriz simtrica nxn de dissimilaridades (distncias) D = {dhi}.

Buscar na matriz D o par de grupos mais similar (menor distncia), e fazer a


distncia entre os grupos mais similares U e V igual duv.

Fundir os grupos U e V e nome-los por (UV). Recalcular e rearranjar as


distncias na matriz D:
(a) eliminando as linhas e colunas correspondentes a U e V e

42

(b) acrescentando uma linha e coluna com as distncias, entre o grupo (UV) e os
demais grupos.

Repetir os passos 2 e 3 num total de (n-1) vezes, at que todos os objetos


estejam em nico grupo. Anotar a identidade dos grupos, que vo sendo
agrupados, e os respectivos nveis (distncias) nas quais isto ocorre.
A seguir, est o desenvolvimento da AA, pelos mtodos referentes ligao

simples e de ligao completa.

3.1.1 Mtodo de encadeamento nico, ou por ligao simples

Figura 08 - Distncia mnima entre os grupos.

O mtodo de encadeamento nico foi introduzido em taxonomia numrica


por Florek et al. (1951, apud REGAZZI, 2001), no qual os grupos so, inicialmente,
constitudos cada um de um indivduo, simplesmente, e so reunidos de acordo com
a proximidade dos elementos, e, ento, os indivduos mais prximos so fundidos.
Esse mtodo, que pode ser chamado, tambm, de salto mnimo, ou vizinho mais
prximo, de concepo simples, podendo ser realizado sem ajuda do computador.
Na Tabela 03 apresenta-se cinco variveis e quatro indivduos. Desenvolvese um exemplo prtico do mtodo de encadeamento nico.
Para que seja possvel formar grupos com caractersticas semelhantes, com
os valores da Tabela 03, faz-se necessrio estabelecer a medida de distncia que
ser utilizada na anlise.
Tabela 03 Nmero de indivduos com suas respectivas variveis.
Indivduos
Varivel 1
Varivel 2
Varivel 3

Varivel 4

Varivel 5

20

11

49

18

10

45

11

35

30

15

10

26

43

Neste exemplo, utilizar-se- o mtodo do encadeamento nico, sendo este


uma medida da distncia euclidiana, que um algoritmo de agrupamento. Para
saber quais so as menores distncias, e dar incio a formao dos grupos, faz-se
necessrio calcular estes valores conforme item 2.2:

d var1, var1 = (20 20) 2 + (18 18) 2 + (11 11) 2 + (10 10) 2 = 0
d var 1, var 2 = (5 20) 2 + (9 18) 2 + (35 11) 2 + (3 10) 2 = 30,5
d var1, var 3 = (11 20) 2 + (10 18) 2 + (30 11) 2 + (7 10) 2 = 22,7
d var1, var 4 = (7 20) 2 + (2 18) 2 + (15 11) 2 + (4 10) 2 = 21,8
d var1, var 5 = (49 20) 2 + (45 18) 2 + (7 11) 2 + (26 10) 2 = 49,9
d var 2, var1 = (20 5) 2 + (18 9) 2 + (11 35) 2 + (10 3) 2 = 30,5
d var 2, var 3 = (11 5) 2 + (10 9) 2 + (30 35) 2 + (7 3) 2 = 8,8
d var 2, var 4 = (7 5) 2 + (2 9) 2 + (15 35) 2 + (4 3) 2 = 21,3
d var 2, var 5 = (49 5) 2 + (45 9) 2 + (7 35) 2 + (26 3) 2 = 67,4
As demais distncias sero obtidas analogamente.
Com todas as distncias calculadas, obteve-se a seguinte matriz de
distncias euclidiana:

1 0,0 30,5 22,7 21,8 42,9


2 0,0 8,8 21,3 67,4
D1 = 3

0,0 17,7 59,7

0,0 64,5
5

0,0

Para ilustrar o mtodo da ligao simples, os objetos menos distantes


devem, inicialmente, ser agrupados. Ento, com essa matriz das distncias,
possvel dar incio formao dos grupos, sendo que a menor distncia existente
entre as duas variveis distintas 8,8, ou seja, este ser o primeiro grupo a ser
formado.

44

1
2
3
4
5
1 0,0 30,5 22,7 21,8 42,9
2 0,0 8,8 21,3 67,4
D1 = 3

0,0 17,7 59,7

4
0,0 64,5

5
0,0
Como se pode verificar na matriz acima, a menor distncia est na linha 2 e
coluna 3, e ser representada por d 23 = 8,8 , logo esses sero os primeiros
indivduos a serem agrupados, 2 e 3.
A Figura 09 refere-se ao primeiro grupo formado da anlise referente s
variveis 2 e 3.

var 3

var 2

Figura 09- Primeiro grupo formado do agrupamento.

A distncia existente entre esse grupo, e os grupos individuais 1, 4 e 5, ser


obtida pelo mtodo do vizinho mais prximo, como segue:

d ( 23)1 = min{d 21 , d 13 } = min {30,5 ; 22,7} = min d 13 = 22,7


d ( 23) 4 = min{d 24 , d 43 } = min{21,3; 17,7} = min d 43 = 17,7
d ( 23) 5 = min{d 25 , d 53 } = min{67,4; 59,7} = min d 53 = 59,7
Logo D2 ser:

1
( 23 )
4
5
1 0,0 22,7 21,8 42,9
(23)
0,0 17,7 59,7
D2 =
4

0,0 64,5

0,0
A segunda menor distncia est na linha 23 e coluna 4, representada em D3
por d ( 23) 4 = 17,7 , logo o indivduo 4 ser includo no grupo 2 e 3.

45

A Figura 08 refere-se ao segundo grupo, formado da anlise, no qual est


sendo adicionada a varivel 4 ao grupo de variveis j formado anteriormente, 23.

var 4

var 3

var 2

Figura 10 - Segundo grupo formado do agrupamento.

As distncias sero obtidas pelo mtodo do vizinho mais prximo, de forma


anloga aos anteriores:

d ( 234)1 = min{d ( 23)1 , d 14 } = min{22,7; 21,8} = min d 14 = 21,8


d ( 234) 5 = min{d ( 23)5 , d 45 } = min{59,7; 64,5} = min d ( 23) 5 = 59,7

1 ( 234 ) 5
1 0,0 21,8 42,9
D3 = (234) 0,0 59,7
5

0,0
A terceira menor distncia est na linha 1 e coluna 234, e ser representada
pela matriz D4 por d ( 234 )1 = 21,8 . Incluindo o indivduo 1 no grupo (234).
A Figura 11 refere-se ao terceiro grupo, formado da anlise, no qual est
sendo adicionada a varivel 1 ao grupo de variveis j formado anteriormente (234).

var 4

var 3

var 2

var 1

Figura 11 - Terceiro grupo formado do agrupamento.

As distncias sero obtidas de forma anloga s anteriores:

46

d (1234 )5 = min{d 15 , d ( 234) 5 } = {42,9; 59,7} = min d 15 = 42,9

(1234 ) 5
(1234) 0,0 42,9
D4 =
5
0,0
A Figura 12 refere-se ao quarto grupo, formado da anlise, no qual est
sendo adicionada a varivel 5 ao grupo de variveis j formado anteriormente
(1234).

var 5

var 4

var 3

var 2

var 1

Figura 12 - Quarto e ltimo grupo formado do agrupamento.

Dessa forma, agrupa-se (1234) e 5, formando, assim, o ltimo grupo da


anlise.
Segundo Valentin (2000, p. 56), o dendograma ser formado de acordo com
os itens que seguem:

no eixo vertical so colocados os valores das distncias, sendo que este


dendograma inicia na distncia 5 e vai at distncia 45;

a Figura 13, chamado de dendograma, ou rvore de aglomerados, representa as


variveis que esto em estudo.

para compor o dendograma, deve-se buscar na matriz de distncias euclidianas o


menor valor, ou a menor distncia, isto , uma maior similaridade entre os
elementos. Como j calculado anteriormente, a menor distncia encontrada nessa
matriz 8,8. Est entre as variveis 2 e 3, que sero reunidas no dendograma na
altura 8,8 formando, assim, o primeiro grupo I;

a segunda menor distncia 17,7, que est entre as variveis 2 e 3, que j


pertence ao grupo I anteriormente formado, e a varivel 4. A varivel 4 deve,

47

ento, ser reunida no primeiro grupo, ao nvel de distncia de 17,7, formando,


assim, o grupo II;

a prxima distncia 21,8, que est entre as variveis 2, 3 e 4, que j pertence


ao primeiro grupo I, e a varivel 1. Como a varivel 3 pertence ao grupo I, j
ligado com a varivel 4, agrupa as variveis do grupo I e do grupo II, formando,
assim, o grupo III;

a prxima, e ltima distncia, 42,9, que est entre as variveis 1, 2, 3 e 4, e a


varivel 5, como a varivel 1, j est ligada a outros grupos. Vai agrupar todos os
grupos existentes, deixando, dessa forma, o dendograma completo, com um
grupo nico, agrupando, assim, todas as variveis.
No dendograma da Figura 13, a escala vertical indica o nvel de similaridade,
e no eixo horizontal so marcados os indivduos, na ordem em que so agrupados.
As linhas verticais partem dos indivduos, e tm altura correspondente ao nvel em
que os indivduos so considerados semelhantes.
Dendograma das variveis
Menor distncia Euclidiana
45

40

Distncia entre grupos

35

30

25

III
II

20

15

I
10

5
Var5

Var4

Var3

Var2

Var1

Figura 13 - Dendograma da matriz de distncias pelo mtodo de ligao simples,


representado utilizando o programa computacional statistica.

Observando a Figura 13, possvel verificar que o maior salto encontra-se


entre as alturas 21,8 e 42,9. Se fizer um corte no grfico, representado pela linha
horizontal entre as alturas 21,8 e 42,9do eixo vertical da distncia entre grupos,

48

passaro a existir dois grupos homogneos distintos: o primeiro grupo, formado


pelas variveis de um, dois, trs e quatro, que representado pela elipse em
vermelho e o segundo grupo, formado pela quinta varivel, representado pelo
crculo, sendo essa varivel distinta das demais, pelo fato de ter formado um grupo
isolado, isso significa dizer que esta varivel heterognea em relao s outras.
Esses grupos foram definidos pelo traado de uma linha paralela ao eixo
horizontal, denominada Linha Fenon. Optou-se por traar essa linha entre as
alturas 21,8 e 42,9, que representam as distncias euclidianas de ligao entre as
vaiveis.
O mtodo do vizinho mais prximo pode ser resumido da seguinte forma,
como mostra a Tabela 04:

Tabela 04 Resultado da anlise de agrupamentos, pelo mtodo do vizinho mais prximo.

Passo

Juno

Nveis

2,3

8,8

23,4

17,7

234,1

21,8

1234,5

42,9

Em

razo

da

sua

simplicidade,

esse

mtodo

apresenta

grande

desvantagem. O fato de reunir um objeto ao elemento mais prximo do grupo j


formado, faz com que os objetos intermedirios entre os grupos sejam rapidamente
aglomerados a esses. Ocorre, ento, um encadeamento de objetos que dificulta a
separao dos grupos. Nos estudos, ecolgicos em que as amostras de
caractersticas intermedirias so geralmente numerosas, esse mtodo deve ser
evitado (VALENTIN, 2000).

49

3.1.2 Mtodo de encadeamento completo ou por ligao completa

Figura 14 - Distncia mxima entre grupos.

Esse mtodo foi introduzido em 1948, sendo exatamente o oposto ao


mtodo do vizinho mais prximo, em que a distncia entre grupos ser definida
como a distncia entre os pares de indivduos mais distantes.
Aqui, a distncia entre dois grupos definida pelos objetos de cada grupo
que esto mais distantes. Ou seja, formam-se todos os pares com um membro de
cada grupo. A distncia entre os grupos definida pelo par que possuir maior
distancia (BUSSAB et al, 1990).
importante ressaltar que a unio ainda feita com os grupos mais
parecidos, ou seja, a menor distncia. Para ilustrar, sero utilizados neste exemplo
os dados referentes a Tabela 03, considerando-se a mesma matriz de
dissimilaridade D do exemplo anterior. Inicialmente, sero agrupados os dois objetos
menos distantes. Ento, o dendograma ser construdo atravs do mtodo do
encadeamento completo, ou do vizinho mais distante.

1
2
3
4
5
1 0,0 30,5 22,7 21,8 42,9
2 0,0 8,8 21,3 67,4
D1 = 3

0,0 17,7 59,7

4
0,0 64,5

5
0,0
Observando a matriz D1 , a menor distncia est no elemento da linha 2 e
coluna 3. Esta distncia representado por d 23 = 8,8 , logo, esses sero os primeiros
indivduos a serem agrupados 2 e 3. A distncia existente entre esse grupo, e os
grupos individuais 1, 4 e 5, sero obtidas pelo mtodo do vizinho mais distante,
conforme segue:

d ( 23)1 = max{d 21 , d 13 } = max{30,5, 22,7} = max d 21 = 30,5


d ( 23) 4 = max{d 24 , d 43 } = max{21,3, 17,7} = max d 24 = 21,3

50

d ( 23)5 = max{d 25 , d 53 } = max{67,4, 59,7} = max d 25 = 67,4


Logo D2 ser:

1
( 23 )
4
5
1 0,0 30,5 21,8 42,9
(23) 0,0 21,3 67,4
D2 =
4
0,0 64,5

5
0,0

A menor distncia em D 2 o elemento que est localizado na linha 23 e


coluna 4. Este elemento representado pela distncia d ( 23 )4 = 21,3 , logo o indivduo
4 ser includo no grupo 2 e 3. As distncias sero obtidas pelo mtodo do vizinho
mais distante, de forma anloga ao anterior:

d ( 234)1 = max{d ( 23)1 , d 14 } = max{30,5, 21,8} = max d ( 23)1 = 30,5


d ( 234 )5 = max{d ( 23) 5 , d 45 } = max{67,4, 64,5} = max d ( 23)5 = 67,4

( 234 )

1 0,0 30,5 42,9


D3 = (234) 0,0 67,4
5

0,0
A menor distncia da matriz D 3 o elemento da linha 1 e coluna 234. Essa
distncia dada por d ( 234)1 = 30,5 incluindo, assim, o indivduo 1 no grupo (234), e as
distncias sero obtidas pelo mtodo do vizinho mais distante, da mesma forma que
as anteriores:

d (1234 ) 5 = max{d 15 , d ( 234) 5 }= max{42,9, 67,4} = max d ( 234) 5 = 67,4

(1234) 5
(1234) 0,0 67,4
D4 =
5
0,0
Dessa forma, agruparam-se os indivduos (1234) e 5, formando, assim, o
ltimo grupo do dendograma. A Figura 15 representa o dendograma vertical da
matriz de distncias, pelo mtodo de ligao completa.

51

Dendograma das variveis


Maior distncia Euclidiana
70

60

Distncia entre grupos

50

40

30

20

10

0
Var5

Var4

Var3

Var2

Var1

Figura 15 - Dendograma da matriz de distncias pelo mtodo de ligao completa.

Para analisar esse dendograma, deve-se ter cuidado, pois a unio de dois
grupos depende do par de objetos mais distantes. Pode-se dizer que um elemento
unir-se- a um grupo unicamente se for ligado a todos os elementos desse grupo.
Observando-se a Figura 15, possvel verificar que o maior salto est na
ltima etapa, se se fizer um corte no grfico entre a altura 30,5 e 67,4 ter-se- dois
grupos homogneos distintos. O primeiro grupo ser formado pelas variveis de um
a quatro, representado pela elipse, o segundo grupo ser formado pela quinta
varivel, representado pelo crculo, sendo que esta varivel distinta das demais,
pelo fato de ter formado um grupo isolado.
Comparando-se os resultados alcanados, e apresentados nas Figuras 13 e
15, pode-se notar que os dendrogramas, para o mtodo do vizinho mais prximo e
do vizinho mais distante, no diferem na alocao dos objetos, para esse exemplo
em particular.
Os algoritmos vistos produzem grupos que constituem uma proposio sobre
a organizao bsica e desconhecida dos dados. Entretanto, eles esbarram em uma
dificuldade, que a determinao do nmero ideal de grupos a serem formados
(REGAZZI, 2001).

52

Tabela 05 Resumo do mtodo do vizinho mais distante.

Passo

Juno

Nvel

2,3

8,8

23,4

21,3

234,1

30,5

1234,5

67,4

3.1.3 Como escolher o melhor mtodo?

At hoje no se sabe muito a respeito de qual tcnica a mais adequada


para aplicar para certo tipo de dados. Independente do mtodo usado para resumir
os dados, importante que sejam efetuadas medidas do grau de ajuste entre a
matriz original dos coeficientes de distncia e a matriz resultante do processo de
agrupamento ROHLF (1970, apud REGAZZI, 2001). Sendo que, quanto maior for o
grau de ajuste, menor ser a distoro ocasionada pelo mtodo. Alguns autores
consideram que acima de 7,0 o grau considerado bom, e que abaixo de 7,0 existe
inadequao no mtodo de agrupamento, para resumir a informao do conjunto de
dados.
Segundo Valentin (2000, p.60), um mtodo melhor que outro quando o
dendograma fornece uma imagem menos distorcida da realidade. Pode-se avaliar o
grau de deformao provocado pela construo do dendograma atravs do
coeficiente de correlao cofentico, que serve para medir o grau de ajuste entre a
matriz de dissimilaridade (matriz fentica F) e a matriz resultante da simplificao
proporcionada pelo mtodo de agrupamento (matriz cofentica C).
Esse coeficiente de correlao cofentico o coeficiente r de Pearson,
sendo calculado entre ndices de similaridade da matriz original e os ndices
reconstitudos com base no dendograma. Logo, quanto maior for o r, menor ser a
distoro. Conforme Valentim (2000, p.60), h sempre um certo grau de distoro,
pois o r nunca ser igual a 1.
O coeficiente de correlao momento produto dado pela seguinte
expresso:

53
n 1


rnm =

j =1

n 1

j =1

j, = j +1

(c

j, = j +1

(c

)(

c f jj , f

jj ,

) (f
2

jj ,

n 1

j =1

j, = j +1

(3.1)

jj ,

onde c e f so as mdias aritmticas, definidas por:


(3.2)

c=

i =1

(3.3)

f
f=

j =1

A Tabela 06 mostra o rendimento de quatro variedades de milho em quatro


colheitas diferentes. Utilizar-se- estes dados para desenvolver um exemplo prtico
do coeficiente de correlao cofentico.
Tabela 06 Rendimento de quatro variedades de milho em quatro colheitas.

Indivduos
Caractersticas

1 colheita

2 colheita

3 colheita

4 colheita

Premium

22,00

24,00

20,00

26,00

AG_9020

20,00

19,00

22,00

25,00

AG_9090

24,00

20,00

28,00

23,00

Agroeste

21,00

26,00

24,00

25,00

Para que seja possvel calcular os valores da matriz cofentica C, faz-se


necessrio estabelecer a medida de distncia que ser utilizada na anlise.
Neste exemplo, utilizar-se- o mtodo do encadeamento nico, sendo este
uma medida da distncia euclidiana mdia, que um algoritmo de agrupamento.
Para calcular os valores da distncia euclidiana mdia, utiliza-se a expresso do
item 2.3.

d11 =

1
(22 22) 2 + (20 20) 2 + (24 24) 2 + (21 21) 2 = 0
4

54

d12 =

1
(24 22) 2 + (19 20) 2 + (20 24) 2 + (26 21) 2 = 3,39
4

d13 =

1
(20 22) 2 + (22 20) 2 + (28 24) 2 + (24 21) 2 = 2,87
4

d14 =

1
(26 22) 2 + (25 20) 2 + (23 24) 2 + (25 21) 2 = 3,81
4
As demais distncias so obtidas de forma anloga, sendo que a matriz de

distncias D1 , ou seja, a matriz fentica de F dada por:

1
D1 = F =

2
3
4

1
2
3
4
0 3,39 2,87 3,81

0
4,82 3,54


0
4,21

Na matriz D1 , a menor distncia est localizado na linha 1 e coluna 3. Essa


distncia dada por d13 = 2,87 , logo, os indivduos 1 e 3 iro formar um grupo,
sendo que as distncias sero dadas por:

d (13) 2 = min { d 21 , d 23} = { 3,39, 4,82} = min d 21 = 3,39


d (13) 4 = min { d 41 , d 43} = { 3,81, 4,21} = min d 41 = 3,81
Logo a matriz D2 ser:

13
2
4
13 0 3,39 3,81
D2 = 2
0 3,54
4
0
Observando-se a matriz D 2 , possvel verificar que a menor distncia o
elemento localizado na linha 13 e coluna 2, sendo que esta dada por d (13) 2 = 3,39 .
Logo, o indivduo 2 ser includo no grupo de 1 e 3. Nesta etapa sero agrupadas as
variveis (123) e 4, formando, dessa maneira, um nico grupo.

d (123) 4 = min { d (13) 2 , d 42 } = min { 3,81, 3,54} = min d 42 = 3,54 .


Logo:

55

(123 ) 4
(123) 0 3,54
D3 =
4
0
Pode-se fazer um resumo desse mtodo, do vizinho mais prximo, atravs
da Tabela 07.
Tabela 07 Resumo do mtodo do vizinho mais prximo.

Passos

Juno

Nvel

1,3

2,87

13,2

3,39

123,4

3,54

O dendograma da Figura 16 mostra os grupos formados com os dados da


Tabela 06:

Dendograma das variveis


Menor distncia Euclidiana
7,2
7,0

Distncia entre grupos

6,8
6,6
6,4
6,2
6,0
5,8
5,6
4 colheita

2 colheita

3 colheita

1 colheita

Figura 16 - Dendograma da matriz de distncias pelo mtodo de ligao simples.

Esse dendograma formou trs grupos distintos, no qual o grupo


representado pela elipse maior e engloba a primeira e a terceira colheita. Devido a

56

isso, pode-se dizer que essas duas variveis so semelhantes entre si. J as
variveis que representam a segunda e a quarta colheita formaram dois grupos
distintos entre si e entre o primeiro grupo formado, por se manterem isoladas das
demais. Pois ao se realizar um corte na altura prximo a 6,4 do eixo vertical,
distancia entre grupos, verifica-se que ficam suspensos trs grupos e que no tero
ligao entre si.
As menores distncias encontradas, atravs do mtodo do vizinho mais
prximo, sero utilizadas para compor a matriz cofentica. Essas distncias
encontradas passam a formar as linhas e as colunas dessa matriz. Logo, o elemento
2,87 estar localizado na linha 1 e coluna 3 da matriz cofentica. J o elemento da
3,39 estar localizado na linha 1 e coluna 2, e na linha 2 e coluna 3 da matriz
cofentica. O elemento 3,54 estar localizado nas seguintes linhas e seguintes
colunas: linha 1 e coluna 4, linha 2 e coluna 4, linha 3 e coluna 4, formando, assim, a
matriz cofentica C.
(1,3) = 2,87
(13,2) = 1,2 e 2,3 = 3,39
(123,4) = 1,4; 2,4; 3,4 = 3,54.

Logo, a matriz cofentica C composta pelos seguintes elementos:

3,39 2,87 3,54



3,39 3,54
C=

3,54



A partir dos valores da matriz cofentica C, passa-se a calcular o coeficiente
de correlao cofentica dado por:
Tabela 08 Valores correspondentes matriz fentica e cofentica.
F
C
3,39

3,39

2,87

2,87

3,81

3,54

4,82

3,39

3,54

3,54

4,21

3,54

57

onde:

F = matriz fentica, na qual seus valores foram obtidos junto matriz inicial das
distncias.

C = matriz cofentica, na qual os valores so obtidos junto matriz final das


distncias, pelo mtodo do vizinho mais prximo.
Para obter o coeficiente de correlao cofentico, deve-se calcular os
valores da mdia e desvio padro das matrizes fentica e cofentica.
A mdia da matriz fentica, calculada mediante a expresso do item 3.3.

3,39 + 2,87 + 3,81 + 4,82 + 3,54 + 4,21


= 3,77.
6

f =

A expresso 3.5 refere-se varincia da matriz fentica.

(X
n

i =1

S F2 =

S F2 =

X)

n 1

(X
=

(3.4)

1 X ) + (X 2 X ) + ... + ( X n X )
n 1
2

(3,39 3,77) 2 + (2,87 3,77) 2 + ....... + (4,21 3,77) 2


= 0,46.
6 1

O desvio padro da matriz fentica ser dado por:

(X
n

S=

X)

i =1

n 1

(X

X ) + (X 2 X ) + ... + (X n X )
n 1
2

(3.5)

S F = 0,46 = 0,68.
A mdia da matriz cofentica, calculada mediante a expresso do item 3.2.

c =

3,39 + 2,87 + 3,54 + 3,39 + 3,54 + 3,54


= 3,38.
6
Varincia da matriz cofentica.

(3,39 3,38) 2 + (2,87 3,38) 2 + ....... + (3,54 3,38) 2


= 0,07.
S =
6 1
2
F

O desvio padro da matriz cofentica ser dado por:

SC = 0,07 = 0,26.

58

A medida de correlao dada pela covarincia entre as duas variveis,


definida por:

Cov FC =

1
x. y
n 1

x. y
n

(3.6)

xy = 3,39.3,39 + 2,87.2,87 + 3,81.3,54 + 4,82.3,39 + 3,54.3,54 +


xy = 76,99
x = 22,64
y = 20,27,

4,21.3,54

logo a Cov FC dada por:

CovFC =

22,64.20,27
1
76,99

= 0,10.
6 1
6

Sendo mais conveniente usar, para medida de correlao cofentica, o


coeficiente de correlao linear de Pearson, definida por:

rcof = rFC =

rcof =

0,10
(0,46)(0,07)

Cov ( F , C )

(3.7)

V ( F ).V ( C )

~
= 0,56.

Como rcof = 0,56 < 0,7, pode-se concluir que o mtodo utilizado no foi
adequado para resumir a informao ao conjunto de dados. Logo, deve-se utilizar
outros mtodos para fazer a anlise dos dados.

3.1.4 Interpretao do dendograma

Existem trs regras de bolso, que se deve utilizar para interpretar um


dendograma, Valentim (2000, p.61).

59

escrever no prprio dendograma, em frente de cada amostra, as suas


caractersticas, tudo o que poder revelar os aspectos comuns entre as amostras
de um mesmo grupo e as diferenas com as amostras de outro grupo;

Comear a ler o dendograma dos baixos valores de similaridade, para os


maiores. Assim, devero ser interpretados, em primeiro lugar, os grandes
grupos, geralmente poucos numerosos, pois seria em vo tentar explicar os
grupos menores sem ter conseguido formular, antes, uma hiptese plausvel
sobre os grandes;

Quando possvel, desenvolver, paralelamente, com os mesmos dados, uma


anlise

de

ordenao,

que

evidenciar

os

fatores

responsveis

pelos

agrupamentos.

3.2 Anlise de Componentes Principais

Para aplicar a anlise de componentes principais, deve-se seguir algumas


etapas at obter-se o resultado final.
Inicialmente, calcula-se a matriz S, ou a matriz R, e verifica-se se as
variveis esto correlacionadas umas em relao as outras. Caso no estejam,
deve-se aplicar o teste do KMO, ou fazer um teste que verifique se as correlaes
entre as variveis so significativas, ou no, para verificar se possvel proceder a
anlise dos dados aplicando esta tcnica.
O pesquisador deve verificar, tambm, se as variveis foram medidas em
escalas diferentes. Deve-se proceder a padronizao das mesmas, para evitar erros
nos resultados.
Na etapa seguinte, decide-se pelo nmero total de componentes que melhor
explicaro o conjunto de variveis originais. Existem duas formas de selecionar
esses componentes:

Mediante os autovalores, pelo critrio sugerido por KAISER (1960) apud MARDIA
(1979), que consiste em incluir somente aquelas componentes cujos valores
prprios sejam superiores a 1. Este critrio tende a incluir poucas componentes
quando o nmero de variveis originais inferior a vinte e, em geral, utiliza-se
aquelas componentes que conseguem sintetizar uma varincia acumulada em
torno de 70%.

60

Atravs do mtodo grfico, este critrio considera as componentes anteriores ao


ponto de inflexo da curva. Foi sugerido por CATTEL (1966) e exemplificado por
PLA (1986).
Decidido o nmero de componentes, passa-se a encontrar os autovetores

que iro compor as combinaes lineares, que iro formar as novas variveis.
A ltima etapa ser fazer normalizao e a ortogonalizao dos autovetores,
para garantir soluo nica as componentes principais e, tambm, que estas sejam
independentes umas das outras.

Matriz de varincia-covarincia

A matriz de varincia-covarincia expressa pelas ligaes realizadas entre


as p variveis, tomadas duas a duas sendo, resumidas por suas covarincias

sij .

Conforme Regazzi (2001), considerando as variveis X1, X2, ..., XP, denotase a matriz de covarincia por S da seguinte forma:

Cv ( X 1 , X 2 )
Vr ( X 1 )
Cv ( X , X )
Vr ( X 2 )
1
2
S =

.......
......

Cv ( X 1 , X p ) Cv ( X 2 , X p )

...... Cv ( X 1 , X p )
...... Cv ( X 2 , X p )

......
......

......
Vr ( X p )

S 12

ou S =

S 12

S 22

.
.

S1 p

S2p
S3p

.
.

S P2

(3.8)

sendo que o conjunto de varincia-covarincia est representado na matriz S,


chamada matriz de varincia-covarincia das p variveis. O termo situado na
intercesso da i-sima linha e da j-sima coluna a covarincia de
termos da diagonal principal so as varincias

(s ) , e os
ij

(s ) .
2
i

(
X ij , ) 2

n
1
2 i =1

Vr ( X j ) =
X ij ,

n 1 i = 1
n

(3.9)

61

1 n
Cv( X j , X j , ) =
X ij X ij ,
n 1 i =1

(3.10)

n
n

X ij X ij ,
i =1
i = 1

Observando-se a matriz S, pode-se concluir que uma matriz quadrada de


ordem pxp, simtrica, pois s ij = s ji .
A seguir, representa-se um exemplo prtico dos procedimentos, para
calcular a matriz S, utilizando-se os dados da Tabela 09, referentes a duas variveis
X e Y, sendo estas mensuradas em uma amostra constituda de cinco observaes
(indivduos).
Tabela 09 Observaes relativas a duas variveis X e Y avaliadas em cinco indivduos.
Observaes
Mtodo X
Mtodo Y
1

10,0

10,7

10,4

9,8

9,7

10,0

9,7

10,1

11,7

11,5

O primeiro procedimento a ser realizado ser a anlise descritiva nas duas


variveis, sendo que os resultados obtidos sero utilizados na anlise subseqente,
para constituir a matriz S.
A Tabela 10 refere-se estatstica descritiva relativa as duas variveis que
esto sendo utilizadas na anlise.
Tabela 10 Estatstica descritiva relativa a duas variveis, avaliadas em cinco indivduos.
Mtodo X
Mtodo Y
Mdia aritmtica das variveis
10,3
10,42
Somatrio ao quadrado das variveis

533,23

544,79

Somatrio das variveis

51,5

52,1

Varincia amostral das variveis

0,70

0,48

Desvio padro amostral das variveis

0,84

0,69

A matriz de varincia e covarincia S estimada conforme item 3.8.

62

Como pela estatstica descritiva j foram encontrados os valores de S x2 e

S y2 , deve-se calcular o valor da covarincia entre x e y, que sero fornecidos atravs


do item 3.10.
Substituindo-se os dados na expresso, tem-se que:

1
51,5.52,1
538,44

5 1
5

1
Cv ( x, y ) = [538,4 536,63] = 0,45.
4

Cv( x, y ) =

Logo, a matriz S assim constituda:

0,69 0,45
S=

0,45 0,48
Matriz de correlao

A matriz de correlao utilizada quando se necessita de uma padronizao


dos dados, evitando-se problemas como a influncia da magnitude das variveis
SOUZA (2000, apud JACKSON, 1981).
Considerando-se X 1 , X 2 , ...., X p , as variveis originais, a estimativa da
matriz de correlao (que igual estimativa da matriz de varincia-covarincia
entre as variveis padronizadas Z 1 , Z 2 , ....., Z p ) denotada por R, da seguinte forma:

1
r
12
R = .

.
r1 p

r12
1
.
.
r2 p

.
.
.
.
.

.
.
.
.
.

. r1 p
. r2 p
. .

. .
. 1

(3.11)

na qual:

r jj , = r ( X j , X j , ) = Cv( Z j , Z j , ) =

Cv( X j , X j , )

(3.12)

Vr ( X j ).Vr ( X j , )

Como possvel de se observar, os termos da diagonal principal na matriz


de correlao R valem, todos, 1, pois a correlao entre r11 , r22 , ......., rnp igual a 1.
para j = 1, 2, ....., p.

63

A matriz R uma matriz quadrada de ordem pxp, simtrica em relao a


diagonal principal, pois rij = r ji .
Ainda utilizando os dados da Tabela 09, faz-se um exemplo prtico com
todos os procedimentos necessrios para constituir a matriz de correlao R,
referente ao item 3.11:
Para ilustrar os clculos, apresenta-se, a seguir, a correlao entre X e Y,
utilizando-se a expresso do item 3.12.
Substituindo-se, na expresso, os valores da covarincia entre X e Y e

S x , S y , j calculados anteriormente, junto ao exemplo da matriz de S, obtm-se a


correlao de r12 e r21 :

r12 =

0,45
= 0,79.
0,83.0,69
Como a correlao entre r12 = r21 = rxy , logo r11 = r22 = rxy tambm so

equivalentes, calculando-se, apenas uma das correlaes, obtm-se o valor da


outra.
2

Cv( X 1 , X 1 ) S x 1
r11 =
= 2 ,
S x1 .S x1
Sx1

r11 =

(3.13)

0,832
= 1.
0,832
Logo, a matriz de correlao R ser assim constituda:

0,79
1
R=
.
1
0,79
A soluo, utilizando-se a matriz de correlao, recomendada quando as
variveis so medidas em escalas muito diferentes entre si, pois essa matriz
equivalente matriz das variveis padronizadas, (JOHNSON & WICHERN, 1992).

64

Detalha-se a partir de agora um exemplo numrico para o clculo das


componentes principais, mediante a matriz S e R.
Segundo Magnusson & Mauro (2003, p.106), estabelecendo-se algumas
premissas importantes e usualmente improvveis, possvel determinar a posio
dos eixos no espao multidimensional usando-se a lgebra de matrizes.
As anlises baseadas nesse princpio so chamadas de anlises de autovetores, sendo que Eigen uma palavra da lngua alem, que significa
caracterstica.
ser chamado de autovalor, e o vetor xr um autovetor.
O escalar

Seja S a matriz de varincia-covarincia quadrada pxp, e I a matriz


,
, ....,
satisfazem a equao polinomial.
identidade pxp, ento os escalares
1
2
p
I = 0
S

(3.14)

so chamados autovalores, ou razes caractersticas, da matriz S.


um
Seja S a matriz de varincia-covarincia de dimenso pxp, e seja
r
autovalor de S. Logo x um vetor no nulo ( x 0), tal que:
r
r
X,
SX =

(3.15)

r
uma matriz pxp de todos
no qual, X uma matriz pxp de todos autovetores, e

autovalores.
r
Ento x dito autovetor ou vetor caracterstico da matriz S, associada com

.
o valor

Para determinar as componentes principais, a partir da matriz S, procede-se


da seguinte forma:
a) Resolve-se a seguinte equao caracterstica para obter a soluo:
I = 0 , isto ,
S
I = 0.
S

Conforme Regazzi (2001), se o posto de S igual a p, a equao


I = 0 ter p razes, chamadas de autovalores, ou razes caractersticas da
S

matriz S.

65

,
, .....,

Sejam
as p solues, temos que a cada autovalor
1
2
p
i

corresponde um autovetor caracterstico.

xi1
x
i2
r
xi = . com

.
xip

p

x
j =1

ij

2
ij

r r
= 1 ( xit .xi = 1) , sendo esta a condio de normalidade.

j =1

r r
x kj = 0 para i k ( x it .x k = 0 para i k ) , sendo esta a condio de

ortogonalidade dos vetores.


A normalidade a primeira restrio feita para que o sistema tenha soluo
nica, e a segunda restrio a ortogonalidade, que garante que as componentes
principais so independentes.
Isso significa dizer que cada autovetor normalizado, ou seja, a soma dos
quadrados dos coeficientes igual a 1, sendo, ainda, ortogonais entre si.
determina-se o autovetor normalizado xr , a partir da
b) Para cada autovalor
i
i
soluo do sistema de equaes dado a seguir:

I xr = 0
S
i
xi1

xi 2
r
xi = . , um autovetor no normalizado.

.
x
ip
r
o um vetor nulo, de dimenso px1.

O autovetor normalizado dado por:

xi1
x
i2
r
xi = . =

.
xip

1
xi21 + xi22 + .... + xip2

xi1

r
xi 2
x
. = ri xrit xri = 1 .

xi
.
x
ip

(3.16)

66

r
Conforme Regazzi (2001), tomando os elementos do vetor xi , assim

determinados como os coeficientes de Yi , tem-se que o i-simo componente


principal dado por:

Yi = xi1 X 1 + L + xi 2 X 2 + ..... + xip X p .


Tem-se, ainda:
i) Vr (Yi ) = i logo Vr (Y1 ) > Vr (Y2 ) > ...... Vr (Y p );
ii)

Vr( X ) =
i

= Vr (Yi ) ;
p

iii) Cv (Yi , Y j ) = 0, desde que

ij

x kj = 0 .

j =i

Deve-se observar que, nesta metodologia, a contribuio de cada


componente principal Yi medida em termos de varincia. Logo, tem-se que o
quociente expresso em percentagem:
Vr (Yi )
p

Vr (Y )
i

i =1

.100 =

.100 =

i
.100 ,
trao( S )

(3.17)

i =1

sendo que esta expresso representa a proporo da varincia total explicada pela
componente Yi .
Ao se estudar um conjunto de n observaes de p-variveis, possvel
encontrar novas variveis denominadas de Yk , k = 1, ..., p, que so combinaes
lineares (CL) das variveis originais Xp, no correlacionados, e apresentam um grau
de variabilidade diferente umas das outras, tambm apresentados em ordem
decrescente de valores. importante lembrar que, em componentes principais, a
unidade de medida so combinaes lineares no correlacionadas, por isso so de
difcil interpretao, e tambm por esse motivo que as variveis originais devem
estar na mesma unidade de medida.
A soma dos k autovalores, dividida pela soma de todos os p autovalores
+ ... +
) /(
+ .... +
), representa a proporo total explicada pelos primeiros
(
1
k
1
p

k componentes principais. Isto , a proporo da informao retida na reduo de p


para k dimenses. Com isso, pode-se decidir quantos componentes principais sero
utilizados no estudo para diferenciar os indivduos.

67

Portanto, para se fazer uma interpretao correta de quais componentes


utilizar no estudo, basta selecionar as primeiras componentes que acumulam uma
percentagem de varincia explicada, igual ou superior a 70%. Ou seja, fica-se com
Y1 , ... , Yk tal que:

Vr (Y1 ) + ... + Vr (Yk )


p

.100 70% no qual k < p.

(3.18)

Vr (Y )
i

i =1

O sucesso da metodologia medido pelo valor de k. Se k = 1, dire-se- que


o mtodo est reduzindo ao mximo, dimenso inicial. Nesse caso, pode-se
comparar os indivduos em uma escala linear. Se k = 2, possvel localizar cada
indivduo em um plano cartesiano, sendo que os dois eixos representam as duas
componentes. Se k for maior do que dois, a comparao dos indivduos passa a ser
mais complicada (REGAZZI, 2001).
0,

...
A partir da matriz S possvel encontrar os valores
1
2
p

que so as razes caractersticas, todas distintas e apresentadas em ordem


decrescente de valores e, como S positiva definida, todos os autovalores so no
negativos.
Os eixos principais so os autovetores das matrizes SI ou RI, sendo que so
os autovetores que fornecem a direo dos eixos na anlise.
A Figura 17 mostra a elipse que possui dois eixos perpendiculares, cujas
coordenadas esto representadas pelos autovetores I e II da matriz S, ou da matriz

R. Os elementos desses vetores definem sua posio, isto , o ngulo que eles
formam com os eixos originais de Y1 e Y2 . O comprimento desses vetores so os
dessa matriz, que representa a varincia dos
autovalores correspondentes a

novos eixos (VALENTIN, 2000).


A Figura 17 a representao grfica dos autovalores e autovetores.

68

2
Z2
I

21
II

x2

22

12

11

x1

Z1

Y
Figura 17 - Representao grfica dos autovalores e autovetores.
Fonte : Valentin 2000.

Os eixos fatoriais CP so definidos pela direo e comprimento, atravs da

I = 0
seguinte equao caracterstica: S -

S = matriz de varincia-covarincia, ou R a matriz de correlao.


= autovalor de S, ou R.

I = matriz identidade.
Mostra-se, a seguir, um exemplo numrico para o clculo dos autovalores e
autovetores, utilizando-se os dados da Tabela 09.
Seja S a matriz de varincia e covarincia amostral, dada por:
0,69 0,45
S =
,
0,45 0,48

para encontrar os autovalores e autovetores, deve-se partir da seguinte equao


caracterstica:

I = 0.
S-
Substituindo-se essa equao pelas matrizes S e I, obtm-se a seguinte
expresso:

0,69 0,45 1 0
0,45 0,48 0 1 = 0.

matriz identidade, obtm-se as seguintes


Multiplicando-se o autovalor
matrizes:

0
0,69 0,45
= 0.
0,45 0,48

Realizando-se a subtrao entre as matrizes, obtm-se a matriz:

69

0,69
0,45
= 0.

0
,
45
0
,
48

Resolvendo-se o determinante dessa matriz, encontra-se o seguinte


resultado:
( 0 , 69 )( 0 , 48 ) ( 0 , 45 ) 2 = 0 .

Unindo-se os termos semelhantes, encontra-se uma equao do segundo


grau:

0,48
+
2 0,20 = 0.
0,33 0,69
Resolvendo-se essa equao, encontra-se os autovalores correspondentes
matriz S.

2 1,17
+ 0,13 = 0 .

Os autovalores (razes caractersticas) so obtidos da seguinte equao:


2
= 1,17 (1,17) (4)(1)(0,13) , logo, os dois autovalores resultantes da equao

(2)(1)

= 1,05 e
= 0,13.
so:
1
2
Aps encontrado os autovalores, passa-se a calcular os autovetores,
r
correspondentes matriz S. Na expresso que segue, x1 um autovetor que ser

.
associado ao autovalor
1
r
r
X , para
= 1,05.
SX =
1
Substituindo-se os valores da expresso pelos seus respectivos dados temse:

0,69 0,45 x11


x11
=
1
,
05
x .
0,45 0,48 x

12
12
r
,
Realizando a multiplicao da matriz S com o autovetor x e o autovalor
1
obtem-se o seguinte sistema linear:

0,69 x11 + 0,45 x12 = 1,05 x11


.

0,45 x11 + 0,48 x12 = 1,05 x12


Unindo-se os termos semelhantes no sistema, obtem-se o seguinte:

0,36 x11 + 0,45 x12 = 0

0,45 x11 0,57 x12 = 0

70

Resolvendo o sistema, foi possvel calcular os dois autovetores associados

, no qual x = 1 e x = 0,8 e o (autovetor 0), logo o autovetor


ao autovalor
1
11
12
associado ao autovalor 1,05 :

r 1
x1 = .
0,8

= 0,13, faz-se os
Para obter os autovetores associados ao autovalor
2
:
clculos de forma anloga ao autovalor
1
r
r
X , para
= 0,13.
SX =
2
Substituindo-se os valores da expresso pelos seus respectivos dados temse:

0,69 0,45 x21


x21
0,45 0,48 x = 0,13 x .

22
22

r
,
Realizando a multiplicao da matriz S com o autovetor x2 e o autovalor
2
obtem-se o seguinte sistema linear:

0,69 x21 + 0,45 x22 = 0,13x21


.

0,45 x21 + 0,48 x22 = 0,13x22


Unindo-se os termos semelhantes no sistema, obtem-se o seguinte:

0,56 x21 + 0,45 x22 = 0


.

0,32 x21 + 0,48 x22 = 0


Resolvendo o sistema, foi possvel calcular os dois autovetores associados

, no qual x = 1 e x = 1,25 e o (autovetor 0), logo o autovetor


ao autovalor
2
21
22
associado ao autovalor 0,13 :
1
r
x2 =
.
1,25

Ao realizar uma anlise de componentes principais, muito importante saber


o significado de cada componente no estudo que est sendo realizado.
A interpretao de uma componente principal feita mediante o grau de
importncia, ou, ainda, a influncia que cada varivel tem sobre cada componente,
sendo que esta importncia dada pela correlao entre cada varivel X j e o
componente Yi que estiver sendo interpretado (REGAZZI, 2001).
Dessa forma, para a componente Y1 tem-se que:

71

Corr (X j , Y1 ) = rX j Y1 = x 1 j

Vr (Y1 )
Vr (X j )

x1j
Vr (X j )

(3.19)
,

logo, para se comparar a importncia de X 1 , X 2 , ... , X p sobre Y1 , basta fazer:

x11
Vr ( X 1 )

x12
Vr ( X 2 )

, ........ ,

x1 p

(3.20)

Vr ( X p )

e, assim, com todas as componentes em estudo.


A Tabela 11 mostra um resumo da anlise de componentes principais, quais
so os componentes principais, seus autovalores, seus autovetores, a correlao
das variveis, a percentagem de varincia, explicada por cada componente, e a
percentagem total da varincia acumulada pelos componentes principais.

72

Tabela 11 Componentes principais obtidas da anlise de p variveis


Varincia
explicada
pelos

Coeficientes de ponderao
associados s variveis

X 1 , X 2 , ... , X p .

Correlao entre

X j e Yi

Percentagem da
varincia de Yi

Percentagem acumulada da
varincia dos Yi

Componentes
Principais

Autovalores

Y1

x11 x12 .. x1 p

x11

1
s1

x
1p
x12 ..

1
1
sp
s2

.100
1 /
i

i =1

.100
1 /
i

i
=
1

Y2

x 21 x 22 .. x 2 p

x21

2
s1

x2 p
x22 ..

2
2
s2
sp

.100
2 /
i

i = 1

/
.100
1 +
2
i

i = 1

Yp

.100
p /
i

i = 1

p

/
.100
1 + 2 + ... +
p
i

i = 1

Fonte: Regazzi (2001)

X 2 .. X p

X1

x p1 x p 2 .. x pp

X1

X2

x p1

p
s1

..... X P

x p 2 .. x pp

p
p
s2
sp

73

Se o objetivo da anlise for comparar os indivduos, ou agrup-los, deve-se


calcular, para cada indivduo, os seus valores (escores), para cada componente
principal, que ser utilizado na anlise. Isso equivale a substituir a matriz de dados
originais de dimenso nxp por outra matriz nxk, sendo que k o nmero de
componentes principais selecionados (REGAZZI, 2001).
A Tabela 12 ilustra a substituio da matriz de dados originais (variveis) por
uma nova matriz, gerada aps a anlise, das componentes principais (escores para
os componentes).
Tabela 12 Escores relativos a n objetos (indivduos), obtidos em relao aos k primeiros
componentes principais.
Escores para os
Objetos (indivduos)
Variveis
componentes

X1

X2

x11

x 21

x n1

..... X p

Y1

Y2

x12 .... x1 p

y11

y12 .... y1k

x 22 .... x 2 p

y 21

y 22 .... y 2 k

x n 2 .... x np

y n1

..... Yk

y n 2 .... y nk

Fonte: Regazzi (2001)

Para obter as CP necessrio formar as combinaes lineares das variveis


originais. Para formar essas CP utiliza-se o seguinte procedimento:

Y11 = x11 X 11 + x12 X 12 + .... + x1 p X 1 p


Y21 = x11 X 21 + x12 X 22 + .... + x1 p X 2 p
.

....

....

Yn1 = x11 X n1 + x12 X n 2 + .... + x1 p X np


Assim, faz-se, sucessivamente, at encontrar todos os componentes da
anlise.
Os componentes so combinaes lineares no correlacionados de

Y1 , Y2 , ....., Yp , cuja varincia a maior possvel.


Na prtica, se forem utilizados os dados da Tabela 09, as componentes
sero representadas da seguinte forma:

74

Y1 = (autovetor x11 )(var ivel X ) + (autovetor x12 )(var ivel Y )


Y11 = 1.10,0 + 0,8.10,7 = 18,56
Y12 = 1.10,4 + 0,8.9,8 = 18,24
Y13 = 1.9,7 + 0,8.10,0 = 17,7

Y14 = 1.9,7 + 0,8.10,1 = 17,78


Y15 = 1.11,7 + 0,8.11,5 = 20,9

Y2 = (autovetor x 21 )(var ivel X ) + (autovetor x 22 )(var ivel Y )


Y21 =1.10,0 1,25.10,7 = 3,38
Y22 = 1.10,4 1,25.9,8 = 1,85
Y23 = 1.9,7 1,25.10,0 = 2,8

Y24 =1.9,7 1,25.10,1 = 2,93


Y25 =1.11,7 1,25.11,5 = 2,68
Dessa forma, encontrara-se as duas componentes referentes Tabela 09.
Como pode-se verificar, acima, em um nmero reduzido de combinaes lineares
possvel sintetizar a maior parte da informao contida nos dados originais.
Caso seja necessrio padronizar as variveis, utiliza-se a expresso do item
2.1. Sendo que a Tabela 13 mostra um exemplo das variveis padronizadas.
Tabela 13 Matriz de variveis padronizados de n indivduos e p variveis.
Variveis
Indivduos
Z1
Z2
Z3
Z4
...
Zj

...

Zp

Z11

Z12

Z13

Z14

...

Z1j

...

Z1p

Z21

Z22

Z23

Z24

...

Z2j

...

Z2p

Z31

Z32

Z33

Z34

...

Z3j

...

Z3p

Zi1

Zi2

Zi3

Zi4

...

Zij

Zip

Zn1

Zn2

Zn3

Zn4

...

Znj

...

Fonte: Regazzi 2001

Znp

75

Pode-se afirmar que a matriz R das variveis X

igual matriz S das

variveis padronizadas Z j .
Desta forma, utilizando os dados padronizados garante-se que todas as
variveis tenham o mesmo grau de importncia, portanto, trabalha-se com o
conjunto de dados padronizados. Neste caso, faz-se necessrio estimar a matriz R
para se calcular os autovalores e autovetores que daro origem s componentes
principais, cujo procedimento para a estimao dos autovalores e autovetores ser o
mesmo mostrado anteriormente, apenas substituindo S por R. Os autovetores
passaro a ser denominados de p, pois esta nova representao indica que o
conjunto amostral dos dados foi padronizado. Logo, os pares de autovalores e

, e ) ,
autovetores estimados da amostra analisada sero representados por (
1 1
, e ) ; onde
0; e fornecero as novas combinaes
, e ) , ... , (

...
(
2
2
p
p
1
2
p
lineares

(JOHNSON

&

WICHERN,

1992)

expressas

por

Y1 = x1, X, Y2 = x ,2 X , ..., Yp = x ,p X os CP ento:


p

2
S112 + S 222 + ... + S pp
=

Var ( X i ) = 1 + 2 + ... + p =

i =1

Var (Y )
i

i =1

2
S112 + S 222 + ... + S pp
= tr ( S )

J a proporo explicada pelo k simo componente principal dada pela


expresso:

1
+
+ ... +

1
2
p

k = 1, 2, ... , p

Ao utilizar-se a matriz R ao invs da matriz S para a extrao das


componentes principais, a soma da diagonal principal da matriz R corresponder ao
nmero total de variveis que representa a variabilidade total do sistema
padronizado, conforme mostra a relao a seguir:

tr R = p
Como se pode verificar, o trao da matriz R ser igual ao nmero de
variveis que esto envolvidas na formao das componentes principais, e a
proporo da explicao fornecido pela j-sima componente ser dada por:

tr R

76

pois, ao se utilizar a matriz R, teremos na sua diagonal principal somente


elementos unitrios, facilitando a determinao da proporo de varincia explicada
de cada componente.
As combinaes lineares obtidas atravs das CPs, segundo JACKSON
(1980), possuem a caracterstica de que nenhuma combinao linear das variveis
originais ir explicar mais que a primeira componente e, sempre que se trabalhar
com a matriz de correlao, as variveis no sofrero influncia da magnitude de
suas unidades medidas.
Resolvendo a matriz de correlao, pode-se observar se existe correlao
entre as variveis; se algumas variveis iniciais forem linearmente dependentes
umas das outras, alguns dos valores prprios sero nulos na matriz de correlao.
Neste caso, a variao total poder ser explicada pelas primeiras componentes
principais.
difcil encontrar em um problema a existncia de dependncia linear exata,
a menos que esta seja introduzida propositalmente nas variveis redundantes. Na

ACP pode ocorrer a dependncia linear aproximada entre algumas variveis. Neste
caso, os valores prprios menores so muito prximos de zero e a sua contribuio
para explicar a varincia ser muito pequena (REIS, 1997). Por isso, deve-se retirar
da anlise aquelas componentes que possuem pouca informao, isso no implica
em uma perda significativa de informao.
Com isso, pode-se reduzir os dados e tornar os resultados mais fceis de
serem interpretados. Dentre vrios critrios que excluem componentes que possuem
pouca informao, cita-se estes:
A definio do nmero de componentes a serem utilizadas feita por meio
de dois critrios. O primeiro, denominado de mtodo grfico, representa
graficamente a porcentagem de variao explicada pela componente nas ordenadas
e os autovalores em ordem decrescente nas abscissas. Quando esta percentagem
diminui e a curva passa a ser praticamente paralela ao eixo das abscissas, exclui-se
as componentes que restam, pois possuem pouca informao. Este critrio, que
considera as componentes anteriores ao ponto de inflexo da curva, foi sugerido por
CATTEL (1966) e exemplificado por PLA (1986), que considera quatro situaes
distintas, conforme mostra Tabela 14.

77

Tabela 14 Variao explicada pela componente.


Percentual da variao total
Situaes
explicada pela componente
CP1
CP2
CP3
CP4
CP5

Total

Caso 1

35

30

28

100

Caso 2

45

30

100

Caso 3

75

100

Caso 4

22

21

20

19

18

100

Na Figura 18 a seguir, visualiza-se melhor a seleo dos componentes


principais atravs do mtodo grfico.
90

Percentual da Varincia Explicada

70

50

30

10

Caso 1
Caso 2
Caso 3

-10
CP1

CP2

CP3

CP4

CP5

Caso 4

Componentes Principais

Figura 18 - Proporo da variao explicada pela componente. Exemplo retirado de


Analisis multivariado: mtodo de componentes principales; PLA (1986).

No caso 1, as trs primeiras componentes explicam 93% da varincia total,


havendo uma quebra brusca depois da quarta componente, sendo consideradas as
trs primeiras. No caso 2, as duas primeiras componentes explicam 75% da
variabilidade total e a quebra brusca, neste caso, ocorre na terceira componente,
considerando-se as duas primeiras. Este mesmo procedimento ocorre para os
demais casos, podendo-se observar, tambm, que as outras componentes
apresentam uma baixa explicao.
O segundo critrio de seleo consiste em incluir somente aquelas
componentes cujos valores prprios sejam superiores a 1. Este critrio sugerido
por KAISER (1960) apud MARDIA (1979). Ele tende a incluir poucas componentes

78

quando o nmero de variveis originais inferior a vinte e, em geral, utilizam-se


aquelas componentes que conseguem sintetizar uma varincia acumulada em torno
de 70%.
Alm do uso na reduo da dimensionalidade, a tcnica de ACP pode ser
utilizada como apoio busca da varivel de maior prevalncia no sistema
responsvel, servindo-se do estudo dos coeficientes de correlao entre as
componentes e as variveis originais.
Quando se fala em avaliar a estabilidade de um processo produtivo, as
dificuldades que porventura existam devem-se complexidade do processo e no
aos mtodos multivariados. A ACP um recurso adicional de apoio para verificar a
estabilidade do sistema (TELHADA, 1995). O problema existente em um conjunto
multivariado que, s vezes, uma observao pode no ser extrema para uma
determinada varivel, mas pode ser considerada uma observao extrema por no
ser semelhante estrutura de correlao fornecida pelo restante dos dados.
A equao rYi , X k =

e ki deve ser utilizada quando os autovetores so

i
s kk

derivados da matriz de varincia S, e a equao rYi ,Zk = eki


i

quando os

autovetores so derivados da matriz de correlao R.


Quando duas ou mais componentes apresentam-se fora dos limites de
controle, deve-se estabelecer uma ordem hierrquica entre as componentes
principais para auxiliar na soluo de conflitos quanto varivel de maior influncia
sobre a perda de controle. Pois, neste caso, pode-se ficar em dvida quanto a dar
mais ateno a uma componente em detrimento da outra. Deve-se, ento, levar em
considerao o maior autovalor que originou a componente, optando-se por esta
(SOUZA, 2000, p.30 a 35).

3.3 Aplicao da anlise de componentes principais, exemplos prticos

Neste item sero desenvolvidos dois exemplos prticos, utilizando-se no ex.


1 para o clculo da matriz S, e no exemplo 2 a matriz R.
Exemplo 1:

79

Considere os dados da Tabela 15, referentes a duas variveis X 1 e X 2 ,


sendo estas mensuradas em uma amostra constituda de cinco observaes
(indivduos). Os componentes principais sero calculados a partir da matriz de
varincia-covarincia.
Tabela 15 Observaes relativas a duas variveis, avaliadas em cinco indivduos.
Observaes

(Varivel) X1

(Varivel) X2

1
2
3
4
5

100
93
102
95
90

76
82
81
68
62

Realizando uma estatstica descritiva nas duas variveis, tem-se os


seguintes resultados na Tabela 16:
Tabela 16 Estatstica descritiva relativa a duas variveis, avaliadas em cinco indivduos.
Varivel X 1
Varivel
Mdia aritmtica das variveis
96
73,8
Somatrio ao quadrado das variveis

X2

46178

27529

Somatrio das variveis

480

369

Varincia amostral das variveis

24,5

74,2

Desvio padro amostral das variveis

4,95

8,61

A matriz S estimada pela expresso do item 3.8, e a covarincia entre as


variveis pela equao do item 3.10, conforme segue o exemplo:

Cv( x1 , x 2 ) =

1
480.369
35528

5 1
5

Cv ( x1 , x 2 ) =

1
[35528 35424]
4

Cv( x1 , x 2 ) = 26 ,
logo, a matriz S assim constituda:
24,5 26
S =
.
26 74,2

Para encontrar os autovalores, deve-se partir da equao caracterstica


abaixo, utilizando a matriz S:

I = 0.
S

80

Substituindo-se essa equao pelas matrizes S e I, obtm-se a seguinte


expresso:

24,5 26 1 0
26 74,2 0 1 = 0.

matriz I, obtm-se as seguintes matrizes:


Multiplicando-se o autovalor
0
24,5 26
= 0.
26 74,2

Realizando-se a subtrao entre as matrizes, obtm-se a matriz:

24,5 -

26

26

74,2 -

= 0.

Resolvendo o determinante dessa matriz, encontra-se o seguinte resultado:


( 24 , 5 )( 74 , 2 ) ( 26 ) 2 = 0 .

Unindo-se os termos semelhantes, encontra-se uma equao do segundo


grau:

74,2
+
2 676 = 0.
1817,9 24,5
Resolvendo essa equao, encontra-se os autovalores correspondentes
matriz S.

2 98,7
+ 1141,9 = 0 .

Os autovalores (razes caractersticas) so obtidos da seguinte equao:

= b

(b) 2 4(a)(c)
2(a)

98,7 (98,7) 2 4(1)(1141,9)

=
, logo, os dois autovalores resultantes da
(2)(1)
= 85,32 e
= 13,38.
equao so:
1
2
Como pode-se observar, a soma dos autovalores corresponde ao trao e ao
determinante da matriz S.

+
+ .... +
= trao da matriz S. Ou seja,

1
2
p
13,38 + 85,32 = 98,7 = trao da matriz S.

).(
) ....(
) = determinante da matriz S.
(
1
2
p
(13,38).(85,32) = 1141.6.

81

Se se resolver a seguinte expresso

1
.100 , ser obtida a proporo da
trao S

varincia total, explicada por cada componente principal. Observa-se que a primeira
componente explica

85,32
.100 = 86,44% , e a segunda componente explica
98,7

13,38
.100 = 13,56% .
98,7
, explica 86,44% da
Ou seja, a primeira componente relativa raiz
1
variao total dos dados.

, explica 13,56% da variao


J a segunda componente, relativa raiz
2
total dos dados.

= 85,32 e
= 13,38, ou seja,
Essa varincia ser distribuda entre
1
2
86,44% da varincia explicada pelo primeiro eixo fatorial, e 13,56% pelo segundo.
Como pode-se observar, acima, cada componente principal sintetiza a
mxima proporo de varincia contida nos dados.
Deve-se observar, tambm, que a adio de duas razes caractersticas d
98,7, que nada mais que o segundo termo da equao.

= 85,32, ser dado pelo


O clculo da primeira componente referente, a
1
, sendo que a equao caracterstica dos autovetores
autovetor associado a
1
r
.
I X = 0. Existe um vetor xr para cada valor de
S
1
1
r
As coordenadas de x11 e x12 do autovetor X 1 so calculadas pela equao
matricial:

r
I X = 0.
S
1
1
Substituindo-se essa equao pelas matrizes S, I, pelo primeiro autovalor

= 85,32 e pela matriz de incgnitas, obtm-se a seguinte expresso:

24,5 26
1 0 x11 0
26 74,2 85,320 1 = 0.

x12
matriz I e subtraindo da matriz S, obtm-se
Multiplicando-se o autovalor
1
as seguintes matrizes:

82

26
24,5 85,32

26
74,2 85,32

x11 0
= .
x12 0

Multiplicando-se essas matrizes, encontra-se o seguinte sistema:

60,82 x11 + 26 x12 = 0


.

26 x11 11,12 x12 = 0


I = 0
Esse sistema de equaes indeterminado, em virtude de S
60,82

26

26

11,12

= 0,

ou, ainda, por x 11 = x 12 = 0 , ou seja, o vetor passando pela origem.


Devido a isso, pode-se deixar uma das equaes (neste caso a segunda), e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( x12 =1) . Dessa
forma, tem-se:
- 60,82 x11 + 26.(1) = 0
- 60,82 x11 = -26, logo o valor da incgnita x11 ser:

x11 = 0,43,
= 85,32, ser:
e o autovetor associado ao primeiro autovalor
1
r 0,43
x1 =
e, sua norma ser de:
1
r
x1 = ( 0,43) 2 + (1) 2 = 1,09.
Para que esse vetor seja unitrio, necessrio normalizar o autovetor a 1,
da seguinte forma:

1 r
x1 = r .x1 .
x1
Substituindo-se essa expresso pelos seus respectivos valores tm-se:

1 0,43

,
1,09 1
logo, o primeiro autovetor normalizado ser:
x1 =

0,39
x1 =
,
0,92
e a sua norma ser:

83

x1 = ( 0,39) 2 + (0,92) 2 = 1.
Como pode-se observar x1t x1 = 1 , sendo esta a primeira restrio feita por
Morrison (1976), para que o sistema tenha soluo nica.
Logo, o primeiro componente principal ser:

Y1 = 0,39 X 1 + 0,92 X 2 .
= 13,38 :
O segundo componente principal dado pela outra raiz
2
r
I X = 0.
S
2
2
Substituindo-se essa equao pelas matrizes S, I, pelo segundo autovetor

= 13,38 , e pela matriz de incgnitas, obtm-se a seguinte expresso:

24,5 26
1 0 x21 0
26 74,2 13,38 0 1 = 0.

x22
matriz I e subtraindo da matriz S, obtmMultiplicando-se o autovalor
2
se as seguintes matrizes:

26
24,5 13,38
x21 0
.
=

26
74,2 13,38 x22 0

Multiplicando-se essas matrizes, encontra-se o seguinte sistema:

11,12 x21 + 26 x22 = 0


.

26 x21 + 60,82 x22 = 0


I = 0
Esse sistema de equaes indeterminado, em virtude de S
11,12

26

26

60,82

= 0,

ou, ainda, por x21 = x22 = 0 , ou seja, o vetor passando pela origem.
Devido a isso, pode-se deixar uma das equaes (neste caso a segunda), e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( x22 = 1 ). Dessa
forma, tem-se:

11,12 x21 + 26.(1) = 0 , logo a incgnita x21 , ser:


x21 =

26
= 2,34
11,12

= 13,38 , ser:
e o autovetor, associado ao segundo autovalor
2

84

2,34
x2 =
,
1
e sua norma ser de:

x2 = ( 2,34) 2 + (1) 2 = 2,54.


Para que esse vetor seja unitrio, necessrio normalizar o autovetor a 1,
da seguinte forma:

1 r
1 2,34
x2 = r x2 =
,
2,54 1
x2
logo, o segundo autovetor normalizado ser:

0,92
x2 =
,
0,39
e sua norma ser de:

x2 = (0,92) 2 + (0,39) 2 = 1.
Como pode-se observar, x2t x2 = 1 a primeira restrio feita por Morrison
(1976), para que o sistema tenha soluo nica (SOUZA, 2001).
Os elementos desses dois vetores de norma 1 so os cossenos-diretores
dos ngulos que eles fazem com o sistema de origem.
Logo, a segunda componente principal ser:

Y2 = 0,92 X 1 + 0,39 X 2 .
Outra restrio que, nesse exemplo, os dois vetores so ortogonais, pois

x1t x2 = 0 (o produto escalar igual zero), que a segunda restrio feita por
Morrison (1976).
Para que esta restrio seja satisfeita, deve-se multiplicar o primeiro
autovetor normalizado transposto pelo segundo autovetor normalizado, procedendose da seguinte forma:

0,92
x1t x2 = [0,39 0,92]
.
0,39
Multiplicando-se os autovetores normalizados, tm-se a seguinte expresso:

x1t x2 = (0,39)( 0,92) + (0,92)(0,39),


logo, tm-se que:

x1t x2 = 0,36 + 0,36 = 0.

85

Conforme Regazzi (2001), cada componente admite duas solues, pois


cada uma delas obtida da outra pela multiplicao de seu segundo membro por
(-1).

Um

exemplo

disso

pode

ser

primeira

componente

principal:

Y1 = 0,39 X 1 + ( 0,92)(1) X 2
Y1 = 0,39 X 1 0,92 X 2 .
O passo a seguir realizado para encontrar o valor de cada componente
principal, procede-se da seguinte forma:

Y1 = 0,39 X 1 + 0,92 X 2
Y11 = 0,39(100) + 0,92(76) = 108,92
Y12 = 0,39(93) + 0,92(82) = 111,71

Y13 = 0,39(102) + 0,92(81) = 114,3


Y14 = 0,39(95) + 0,92(68) = 99,61
Y15 = 0,39(90) + 0,92(62) = 92,14

Y2 = 0,92 X 1 + 0,39 X 2
Y21 = 0,92(100) + 0,39(76) = 62,36
Y22 = 0,92(93) + 0,39(82) = 53,58
Y23 = 0,92(102) + 0,39(81) = 62,25

Y24 = 0,92(95) + 0,39(68) = 60,88


Y25 = 0,92(90) 0,39(62) = 58,62
Na Tabela 16 mostra-se as observaes, e as variveis originais utilizadas
na anlise e as novas componentes geradas a partir das combinaes lineares,
formadas na anlise.
Tabela 17 Mostra a substituio da matriz dos dados originais por uma nova matriz, gerada a partir
das combinaes lineares.
Novas variveis geradas para
Observaes
Variveis originais
as componentes principais

Y1

Y2

X1

X2

100

76

108,22

-62,36

93

82

111,71

-53,58

102

81

114,3

-62,25

95

68

99,61

-60,88

90

62

92,14

-58,62

86

Para completar a anlise de componentes principais, necessrio fazer a


correlao entre as variveis X j e Yi , como se pode verificar a seguir:

rx1 y1 =

x11
Vr ( x1 )

rx1 y1 = 85,32.
rx2 y1 =

x12
Vr ( x 2 )

rx 2 y1 = 85,32 .
rx1 y2 =

0,92
= 0,99
74,2
x 21

Vr ( x1 )

rx1 y 2 = 13,39.
rx2 y 2 =

0,39
= 0,73
24,5

rx 2 y 2 = 13,39 .

0,92
24,5

= -0,68

x 22
Vr ( x 2 )

0,39
= 0,17.
74,2

A Tabela 18 mostra os componentes principais encontrados na anlise, os


autovalores, os autovetores, a correlao existente entre as variveis, a
percentagem de explicao de cada componente e a percentagem total de varincia
acumulada pelas componentes principais.
Tabela 18 Resumo da anlise de componentes principais.
Componentes
Autovalor
principais

Coeficiente de
ponderao
associado s
variveis

Correlao entre

Percentagem
da varincia de

X j Yi

Yi

X1

X2

X1

X2

Percentagem
acumulada da
varincia dos

Yi

Y1

85,32

0,39

0,92

0,73

0,99

86,44%

86,44%

Y2

13,39

-0,92

0,39

-0,68

0,17

13,56%

100%

87

Como pode-se observar na Tabela 17, a componente Y1 possui a maior


correlao, sendo essa varivel a de maior importncia para o estudo.
Exemplo 2:
Considerando-se os dados do exemplo 01, referentes a duas variveis X 1 e

X 2 , sendo estas mensuradas em uma amostra constituda de cinco observaes


(indivduos), passa-se a desenvolver este exemplo, da Tabela 19, a partir da matriz
de correlao.
Na Tabela 19 mostra-se as observaes e as variveis originais utilizadas na
anlise, e as variveis padronizadas.
Tabela 19 Observaes relativas a duas variveis, avaliadas em cinco indivduos e com as
respectivas variveis padronizadas.
Observaes

1
2
3
4
5

Variveis originais

Variveis padronizadas

X1

X2

Z1

Z2

100
93
102
95
90

76
82
81
68
62

0,81
-0,61
1,21
-0,20
-1,21

0,26
0,95
0,84
-0,67
-1,37

Para se obter as variveis padronizadas, pode-se utilizar a expresso do


item 2.1:

Z 11 =

100 96
= 0,81
4,95

Z 21 =

76 73,8
= 0,26
8,61

Z 12 =

93 96
= 0,61
4,95

Z 22 =

82 73,8
= 0,95
8,61

Z 13 =

102 96
= 1,21
4,95

Z 23 =

81 73,8
= 0,84
8,61

Z 14 =

95 96
= 0,20
4,95

Z 24 =

68 73,8
= 0,67
8,61

Z 15 =

90 96
= 1,21
4,95

Z 25 =

62 73,8
= 1,37
8,61

Realizando-se uma estatstica descritiva, nas duas variveis, tm-se os


seguintes resultados:

88

Tabela 20 Estatstica descritiva relativa a duas variveis, avaliadas em cinco indivduos.


Varivel
Varivel X 1
Mdia aritmtica das variveis
96
73,8
Somatrio ao quadrado das variveis

X2

46178

27529

Somatrio das variveis

480

369

Varincia amostral das variveis

24,5

74,2

Desvio padro amostral das variveis

4,9497

8,6139

Desvio padro amostral das variveis


padronizadas

A matriz de correlao R, que extrada das variveis originais, ser


calculada pela expresso do item 3.11, e as correlaes entre as variveis sero
obtidas pela equao do item 3.12:
rx1 x 2 =

26
= 0,61.
4,95 .8,61
A correlao entre a varivel, em relao a ela mesma, ser fornecida pela

expresso do item 3.13:

r11 =

24,52
= 1,
24,52

logo, a matriz de correlao ser assim constituda:

0,61
1
R=
.
0,61 1
Para encontrar os autovalores, a partir da matriz de correlao R, deve-se
partir da seguinte equao caracterstica:

I = 0.
R
Substituindo-se essa equao pelas matrizes R e I, obtm-se a seguinte
expresso:

0,61 1 0
1
0,61 1 0 1 = 0.

matriz I, obtm-se as seguintes matrizes:


Multiplicando-se o autovalor
0
0,61
1

= 0.

0,61 1

Realizando-se a subtrao entre as matrizes, obtm-se a matriz:

1
0,61

0,61
= 0.

89

Resolvendo o determinante dessa matriz, encontra-se o seguinte resultado:


(1 )( 1 ) ( 0 , 61 ) 2 = 0 .

Unindo-se os termos semelhantes, encontra-se uma equao do segundo


grau:


+
2 0,37 = 0.
1
Resolvendo essa equao, encontra-se os autovalores correspondentes
matriz R.

2 2
+ 0,63 = 0.

Os autovalores (razes caractersticas) so obtidos da seguinte equao:

2 (2) 2 4(1)(0,63)

=
logo, os dois autovalores resultantes da equao so:
2(1)
= 1,61 e
= 0,39.

1
2
Como pode-se observar, a adio de duas razes caractersticas d 2, que
nada mais que o segundo termo da equao.
Deve-se observar, tambm, que a soma dos autovalores corresponde ao
trao e ao determinante da matriz R.

+
+ .... +
= trao da matriz R.

1
2
p
ou seja, 1,61 + 0,39 = 2 = trao da matriz R.

).(
) ....(
) = determinante da matriz R.
(
1
2
p
(1,61).(0,39) = 0,63.
Se a seguinte expresso for resolvida

1
.100 , tem-se a proporo da
trao R

varincia total, explicada por cada componente principal. Observa-se que a primeira
componente

explica

1,61
.100 = 80,50% ,
2

segunda

componente

explica

0,39
.100 = 19,50% .
2
, explica 80,50% da
Ou seja, a primeira componente relativa raiz
1
variao total dos dados.

, explica 19,50% da variao total


A segunda componente, relativa raiz
2
dos dados.

90

= 1,61 e
= 0,39, ou seja, 80,50%
Essa varincia ser distribuda entre
1
2
da varincia explicada pelo primeiro eixo fatorial, e 19,50% pelo segundo.

= 1,61, ser dado pelo


O clculo da primeira componente, referente a
1
, conforme a equao:
autovetor associado a
1
I e = 0.
R
1
1
Substituindo-se essa equao pelas matrizes R, I, pelo primeiro autovetor

= 1,61 e pela matriz de incgnitas, obtm-se a seguinte expresso:

0,61
1
1 0 e11 0

1
,
61
0,61 1
0 1 e = 0.

12
matriz I e subtraindo da matriz R, obtmMultiplicando-se o autovalor
1
se as seguintes matrizes:

1 1,61 0,61
0,61 1 1,61

e11 0
e = 0.
12

Multiplicando-se essas matrizes encontra-se o seguinte sistema:

0,61e11 + 0,61e12 = 0
.

0,61e11 0,61e12 = 0
I = 0
Esse sistema de equaes indeterminado em virtude de R
0,61

0,61

0,61

0,61

= 0.

Devido a isso, pode-se deixar uma das equaes (neste caso a segunda) e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( e12 = 1) . Dessa
forma, tem-se:
- 0,61 e11 + 0,61.(1) = 0
- 0,61 e11 = - 0,61, logo e11 ser:

e11 = 1,
= 1,61, ser:
e o autovetor associado ao primeiro autovalor
1
1
e1 = e, sua norma ser:
1
e1 =

(1) 2 + (1) 2 = 1,41.

91

Para que esse vetor seja unitrio, necessrio normalizar o autovetor a 1,


da seguinte forma:

1
.e1.
e1

e1 =

Substituindo-se essa expresso, pelos seus respectivos valores, tm-se:

e1 =

1 1
.
1,41 1
Portanto, o primeiro autovetor normalizado ser:

0,71
e1 =
,
0,71
e a sua norma ser:

e1 =

( 0,71) 2 + (0,71) 2 = 1.
Como pode-se observar e1t e1 = 1 , sendo esta a primeira restrio feita por

Morrison (1976), para que o sistema tenha soluo nica.


Logo, o primeiro componente principal ser:

Y1 = 0,71Z 1 + 0,71Z 2 .
= 0,39 :
O segundo componente principal dado pela outra raiz
2
2 I e = 0.
R
2
Substituindo-se essa equao pelas matrizes R, I, pelo segundo autovalor

= 13,38 , e pela matriz de incgnitas, obtm-se a seguinte expresso:

1 0,61
1 0 e21 0

0
,
39
0,61 1
0 1 e = 0.

22
matriz I e subtraindo da matriz R, obtmMultiplicando-se o autovalor
2
se as seguintes matrizes:

0,61 e21 0
1 0,39
.
=
0,61
1 0,39 e22 0

Multiplicando-se essas matrizes encontra-se o seguinte sistema:

0,61e 21 + 0,61e 22 = 0
.

0,61e 21 + 0,61e 22 = 0
Fazendo-se o procedimento anlogo ao anterior, tem-se:

92

0,61e 21 + 0,61(1) = 0, logo a incgnita e21 , ser:

e 21 = 1 ,
= 0,39 , ser:
e o autovetor associado ao segundo autovalor
2
1
e2 = ,
1
e sua norma ser de:

e2 = (1) 2 + (1) 2 = 1,41.


Para que esse vetor seja unitrio, necessrio normalizar o autovetor a 1,
da seguinte forma:

e2 =

1
1 1
e2 =
,
e2
1,41 1

logo, o segundo autovetor normalizado ser:

0,71
e2 =
,
0,71
e sua norma ser:

e2 =

(0,71) 2 + (0,71) 2 = 1.
Como pode-se observar, e2t e2 = 1 a primeira restrio feita por Morrison

(1976), para que o sistema tenha soluo nica.


Logo, a segunda componente principal ser:

Y2 = 0,71Z1 + 0,71Z 2 .
Outra observao que, neste exemplo, os componentes principais so
ortogonais, pois e1t e2 = 0, que a segunda restrio feita por Morrison (1976).
Para que esta restrio seja satisfeita deve-se multiplicar o primeiro
autovetor normalizado transposto pelo segundo autovetor normalizado, procedendose da seguinte forma:

0,71
e1t e2 = [0,71 0,71]
.
0,71
Multiplicando-se os autovetores normalizados, tm-se a seguinte expresso:

e1t e2 = (0,71)(-0,71) + (0,71)(0,71),


tem-se que:

e1t e2 = 0,50 + 0,50 = 0.

93

O passo a seguir encontrar o valor de cada componente principal,


procedendo-se de forma anloga ao exemplo 1:
Tabela 21 Mostra os escores para anlise de componentes principais.
Escores para os
Observaes
Variveis
componentes principais

Y1

Y2

X1

X2

100

76

0,76

-0,39

93

82

0,24

1,10

102

81

1,46

-0,26

95

68

-0,62

0,34

90

62

-1,83

-0,11

Para completar a anlise de componentes principais, necessrio fazer a


correlao entre as variveis Z j e Yi , como se pode verificar a seguir:

rz1y1 = e11
1

rz1 y1 = 0.71 1,61 = 0,90

rz 2 y1 = e12
1

rz 2 y1 = 0.71 1,61 = 0,90

rz1y 2 = e 21
2

rz1 y 2 = 0.71 0,39 = -0,44

rz 2 y2 = e 22
2

rz 2 y 2 = 0.71 0,39 = 0,44

A Tabela 22 mostra as principais informaes de uma anlise de


componentes principais.

Tabela 22 Componentes principais obtidos da anlise de duas variveis padronizadas


Componentes
Autovalor
principais

Coeficiente de
ponderao

Correlao
entre Z j Yi

Z1

Z2

Z1

Z2

Z1 e Z 2 .

Percentagem
da varincia
de Yi

Percentagem
acumulada da
varincia dos Yi

Y1

1,61

0,71

0,71

0,90

0,90

80,50%

80,50%

Y2

0,39

-0,71

0,71

-0,44

0,44

19,50%

100%

Como pode-se observar novamente, a primeira componente Y1 possui a


maior correlao, sendo esta a de maior importncia para o estudo.

94

Deve-se observar que os valores obtidos dos componentes principais,


atravs da matriz S, em geral no so os mesmos que os obtidos da matriz R.

Comentrio desse captulo

Nesse captulo mostrou-se o procedimento a mo das anlises, para que


fosse possvel o entendimento quando se trabalha com um grande nmero de
variveis. Pois a interpretao ser similar, mas sendo necessrio a utilizao de um
programa computacional especfico. No captulo 4, desenvolveram-se dois exemplos
com dados reais, utilizando-se um programa especfico.

95

4 APLICANDO O SOFTWARE PASSO-A-PASSO


Neste captulo 4, aplica-se tcnicas multivariadas utilizando-se o software

statistica verso 7.0 passo-a-passo, de forma a auxiliar o desenvolvimento de


pesquisas futuras.
Utilizou-se dois bancos de dados. O primeiro, para desenvolver o exemplo
da anlise de agrupamentos, refere-se produo de gros do setor agroindustrial
brasileiro, no perodo de 1995 a 2002, e o segundo para desenvolver o exemplo da
anlise fatorial de componentes principais, refere-se a 30 coletas da fauna edfica
do solo, no perodo de 06 de junho de 2004 a 04 de janeiro de 2005, com coletas
semanais.

4.1 Anlise de Agrupamentos

Detalha-se, a partir de agora, os procedimentos para realizao da AA,


utilizando-se o mtodo de agrupamento do vizinho mais prximo, no qual sero
salientados alguns princpios gerais de interpretao dos resultados numricos e
grficos de uma AA, utilizando-se o software Statistica verso 7.0.
Conforme Figura 19, para encontrar os grupos de variveis com as mesmas
caractersticas, que constituem o dendograma na anlise, deve-se proceder da
seguinte forma: Acessar a barra de tarefas e clicar em Iniciar/Programas/Statistica

/Statistica, conforme a seguinte caixa do programa:

Figura 19 - Caixa de seleo das anlises estatsticas.

96

A Figura 20 mostra como transportar o banco de dados do excel para o


programa statistica sem que seja necessrio copiar as variveis de forma individual.
Deve-se clicar na opo abrir Arquivos do tipo: selecionar Excel Files (*.xls),
na opo Examinar selecionar a pasta em que est arquivo do excel, na opo

Nome do arquivo: selecionar a o banco de dados do excel e clicar em Abrir.

Figura 20 - Caixa de seleo para importar os dados do excel para o programa statistica.

Na Figura 21 selecionando a primeira opo Import all sheets to a Workbook,


importa-se todas as planilhas para rea de trabalho, selecionando a segunda opo,

Import selected to a Spreadsheet, importa-se todas as planilhas selecionadas.

Figura 21 - Caixa de seleo para importar os todos os dados do excel para o programa statistica.

97

A Figura 22 mostra que selecionando a primeira opo sero importados os


nomes da primeira coluna, que geralmente so variveis qualitativas, selecionando a
segunda opo sero importados os nomes das variveis que esto na primeira
linha de uma planilha excel e selecionando a terceira opo sero importados no
formato em que foram importados os dados.

Figura 22 - Caixa de seleo para importar os dados do excel para o programa statistica,
por linhas e por colunas.

A amostra, utilizada para este exemplo, refere-se produo de gros do


setor agrcola brasileiro, no perodo de 1995 a 2002, sendo que esta tcnica
possibilitar fazer uma sntese da produo de gros neste perodo, bem como
identificar os estados que possuram mdias semelhantes de produo, atravs dos
grupos formados e, conseqentemente, os estados que apresentaram a maior
produo.
O banco de dados constitudo pelos 27 estados brasileiros, que so os
casos, e pela produo das seguintes culturas: soja, milho, caf, trigo, girassol,
feijo e arroz, entre outras, perfazendo um total de 26 variveis, num perodo de oito
anos. As culturas em estudo so constitudas pelos produtos de maior expresso de
produo nos 27 estados, com coletas anuais medidas em toneladas. Para efetuar a
anlise, foi realizada uma mdia bianual das produes, pois esta possibilitou uma
melhor visualizao das variveis, no sobrepondo, graficamente, as culturas
analisadas.
Inicialmente, elaborou-se o banco de dados com as variveis representadas
nas colunas, e os objetos nas linhas, como mostra a Figura 23.

98

Figura 23 - Caixa das variveis para AA.

99

Analisando-se a Figura 23, pode-se concluir que nem todos os estados


produzem todos os produtos, ou seja, alguns produtos so caractersticos de
algumas regies, apenas. A descrio das variveis envolvidas neste estudo a
seguinte: V1 representar a varivel 1, V2 representar a varivel 2 e assim
sucessivamente, com a demais variveis:

V1 = produo de arroz, nos anos de 1995/1996.


V2 = produo de arroz, nos anos de 1997/1998.
V3 = produo de arroz, nos anos de 1999/2000.

V4 = produo de arroz, nos anos de 2001/2002.


V5 = produo de feijo, nos anos de 1995/1996.
V6 = produo de feijo, nos anos de 1997/1998.
V7 = produo de feijo, nos anos de 1999/2000.
V8 = produo de feijo, nos anos de 2001/2002.
V9 = produo de milho, nos anos de 1995/1996.
V10 = produo de milho, nos anos de 1997/1998.

V11 = produo de milho, nos anos de 1999/2000.


V12 = produo de milho, nos anos de 2001/2002.
V13 = produo de soja, nos anos de 1995/1996.

V14 = produo de soja, nos anos de 1997/1998.


V15 = produo de soja, nos anos de 1999/2000.
V16 = produo de soja, nos anos de 2001/2002.
V17 = produo de caf, nos anos de 1995/1996.
V18 = produo de caf, nos anos de 1997/1998.
V19 = produo de caf, nos anos de 1999/2000.
V20 = produo de caf, nos anos de 2001/2002.

V21 = produo de girassol, nos anos de 1999/2000.


V22 = produo de girassol, nos anos de 2001/2002.
V23 = produo de trigo, nos anos de 1995/1996.

V24 = produo de trigo, nos anos de 1997/1998.

100

V25 = produo de trigo, nos anos de 1999/2000.


V26 = produo de trigo, nos anos de 2001/2002.
Para a realizao da anlise, seleciona-se, no menu de opes, o mdulo
principal do STATISTICA, a opo Multivariate Exploratory Techniques Cluster

Analysis, conforme a caixa de seleo mostrada na Figura 24.

Figura 24 - Caixa de seleo

da AA.

A Figura 26 mostra a caixa de seleo de opes, para se realizar uma


anlise de agrupamentos. Selecionando Joning (tree clustering), possvel
encontrar o dendograma, o qual mostrar o nmero de grupos formados pelas
mesmas caractersticas. Outra opo selecionar K-means clustering, que ir definir
o nmero de grupos a serem utilizados na anlise. Esses grupos so definidos pelas
mdias encontradas no banco de dados inicial. E ainda existe outra forma de realizar
a anlise, atravs da opo Two-way joining, que torna possvel fazer um mapa
associativo entre cada varivel e a unidade amostral, permitindo, atravs da
inspeo visual, qual varivel possui uma maior representatividade para o conjunto
de dados, mas estas no foram citadas no trabalho.

101

Figura 25 - Caixa de seleo para anlise de agrupamentos.

A Figura 25 mostra a caixa de dilogo das variveis para AA. Nesta caixa
existem vrias opes para a realizao da anlise. Selecionando a opo
Variables, possvel visualizar e selecionar as variveis que o pesquisador deseja
incluir na anlise. Na opo Imput in file encontra-se as opes Raw data, que
utilizada para os dados brutos do banco de dados. Outra opo desta caixa de
dilogo Cluster, que possibilita realizar a anlise de duas formas: se selecionar

variables, o agrupamento ser feito por colunas e se for selecionado cases o


agrupamento ser realizado por linhas.
A caixa de seleo mostra, ainda, a opo Amalgamation (linkage) rule, na
qual se encontra os mtodos de encadeamento: Single Linkage, que se baseia na
distncia mnima; Complete Linkage, que se baseia na distncia mxima entre
objetos, dentre outras distncias que se encontram dispostas para serem utilizadas
na anlise. A ltima opo desta caixa de dilogo Distance measure, na qual o
pesquisador poder selecionar o tipo de distncia que deseja utilizar em seu
trabalho. importante lembrar que a distncia mais utilizada a Euclidean

distances, ou seja, a distncia euclidiana.

102

Figura 26 - Caixa de seleo, para anlise de agrupamento.

Para selecionar todas as variveis, basta clicar em Select All, e OK,


conforme Figura 27. Se desejar selecionar apenas algumas variveis, deve-se
utilizar a tecla ctrl, e clicar nas variveis desejadas.

Figura 27- Caixa de seleo das variveis, para a anlise de agrupamentos.

A Figura 28 mostra a caixa de seleo de comandos para a AA,


selecionando Advanced/Horizontal hierarchical tree plot, tem-se o dendograma
horizontal, e escolhendo-se a opo Vertical icicle plot, tem-se o dendograma
vertical. A caixa de seleo ainda traz a opo da matriz de distncias entre as
variveis Distance matrix, e possibilita, ainda, realizar uma estatstica descritiva nos
dados, selecionando a opo Descriptive statistics, que pode ser de interesse do
pesquisador. Vale lembrar que estas estatsticas so referentes s variveis
originais.

103

Figura 28 - Caixa de seleo do dendograma, matriz de distncias e estatstica descritiva,


para a anlise de agrupamento.

A Figura 29, mostra o dendograma considerando o mtodo do vizinho mais


prximo, como o algoritmo de agrupamento dos dados, e ser considerada a
distncia euclidiana como medida de dissimilaridade.
O dendograma, a seguir, formado com base nos pares de objetos mais
similares, ou seja, com a menor distncia entre eles. Logo aps, estes objetos, ou
grupos j formados, vo reunir-se em razo de similaridade decrescente.

Dendograma das variveis


Menor distncia Euclidiana
1,6E7

Distncia entre os grupos

1,4E7
1,2E7
1E7
8E6
6E6
4E6
2E6

SO 01/02
SO 99/00
SO 97/98
SO 95/96
MI 01/02
MI 99/00
MI 97/98
MI 95/96
CA 01/02
CA 99/00
CA 97/98
CA 95/96
TRI 01/02
TRI 99/00
TRI 97/98
TRI 95/96
GIR 01/02
GIR 99/00
FE 01/02
FE 99/00
FE 97/98
FE 95/96
AR 01/02
AR 99/00
AR 97/98
AR 95/96

Figura 29 - Dendograma da matriz de distncias, pelo mtodo de agrupamento por ligao


simples.

104

No dendograma da Figura 29, a escala vertical indica o nvel de similaridade,


e no eixo horizontal so marcados os indivduos, na ordem em que so agrupados.
As linhas verticais partem dos indivduos, e tm altura correspondente ao nvel em
que os indivduos so considerados semelhantes.
Observando a Figura 29, verifica-se que o maior salto encontra-se entre a
distncia 8x106 e 1x107 no grfico referido como 8E6 e 1E7 respectivamente. Se se
fizer um corte no grfico, entre essas distncias, ter-se-, trs grupos homogneos
distintos. O primeiro grupo formado pelas variveis: arroz, feijo, girassol, trigo e
caf, que est sendo representado pela elipse, sendo que as variveis, que formam
esse grupo, representam a menor produo de gros em todo o perodo, pois elas
possuem menor altura em relao ao eixo y, o segundo grupo formado pela
varivel milho, que est sendo representada pelo crculo, ao lado da elipse, esta
varivel manteve sua produo constante no perodo de 1995 a 1998 e teve um
aumento significativo no ano de 1999, mantendo-se constante at o ano de 2002.
O terceiro grupo formado pela varivel soja, que est sendo representado
pelo crculo da extremidade. Essa varivel formou, no dendograma, um grupo
isolado, devido a sua produo ser superior s demais, embora que esta tenha tido
vrias oscilaes ocorridas no perodo. Nos anos de 1995 e 1996 representou uma
produo significativa, ocorrendo um decrscimo no ano de 1997, mantendo-se
instvel at o ano de 2000. S tornou a aumentar no ano de 2001 e 2002, os quais
se destacaram pela alta produo ocorrida.
Antes de concluir a anlise sobre o dendograma, pertinente lembrar que o
corte, no grfico, que determina o nmero de grupos, geralmente, realizado em
relao s maiores distncias em que os grupos foram formados, levando-se,
sempre, em considerao os critrios adotados por cada pesquisador.
O grfico da Figura 30 serve de auxlio para o pesquisador, caso no
dendograma no esteja claro entre quais distncias ocorra o maior salto.
Analisando-se este grfico, possvel ver que o corte deve ser realizado no
dendograma entre as distncias 8x106 e 1x107, no qual ocorre o maior salto,
conforme indicado no grfico pela elipse.

105

Figura 30- Grfico das distncias nas quais os grupos foram formados.

Como pode-se observar na Figura 31,

os indivduos que esto em um

mesmo grupo possuem mdias de produo semelhantes, e os que possuam


mdias diferentes formaram outros grupos, isso comprova a existncia de
homogenidade dentro do grupo e heterogenidade entre os grupos.
Aplicando-se a AA, por linhas, encontra-se o dendograma referente aos
estados que constituiram a amostra.

Diagrama referente aos Estados


Menor distncia Euclidiana
3E7

Distncia entre os grupos

2,5E7

2E7

1,5E7

1E7

5E6
PR

MT

RS

DF

GO

MS

SC

Figura 31 - Dendograma referente aos estados, utilizando o mtodo de


agrupamento de ligao simples.

SP

106

Analisando-se o dendograma da Figura 31, pode-se concluir que nos


estados do DF, GO, MS, SC e SP, no perodo de 1995 a 2002, a produo de gros
manteve-se semelhante, a qual foi inferior em relao aos estados do RS, MT e o
PR, que formaram grupos distintos no dendograma, ou seja, no decorrer do perodo,
a produo de gros, nesses estados, teve uma caracterstica prpria, uma maior
representatividade, formando, assim, grupos distintos dos demais. Pode-se
observar, tambm, que o estado de GO e MS possuem a menor produo de gros,
seguidos de SC, DF e SP.

Os demais estados no foram representados no

dendograma, devido ao fato de exercerem outras atividades econmicas. Pode-se


dizer, tambm, que GO e MS so os estados que possuem a maior semelhana no
dendograma, por ter sido o primeiro grupo formado, ao contrrio do PR que foi o
ultimo grupo a ser formado, mantendo-se distinto dos demais. Esses trs estados
foram os mais distintos no dendograma.

4.2 Aplicao da anlise fatorial e anlise de componentes principais

Neste exemplo sero apresentados alguns princpios gerais de interpretao


dos resultados numricos, e grficos da AF com ACP.
A amostra utilizada, para este trabalho, refere-se a 30 coletas da fauna
edfica do solo. As coletas foram realizadas na rea experimental do Departamento
de Solos, em uma rea de campo nativo da UFSM/RS. O perodo, no qual os dados
foram coletados, de 06 de junho de 2004 a 04 de janeiro de 2005, com coleta
semanal, sendo que essa tcnica possibilitar verificar a influncia das variveis
suplementares: temperatura e umidade, sobre a quantidade e diversidade de
organismos existentes no solo.
Para realizar a ACP, faz-se necessrio o auxlio de um software verso 7.0,
pois a amostra em estudo possui a dimenso R15, ou seja, tem-se 15 variveis.
Essas variveis suplementares so utilizadas quando o pesquisador busca
identificar o comportamento destas, em relao s demais variveis.
Descrio das variveis envolvidas neste estudo:

V1 = Colmbolos

V2 = Ispteros

V3 = Hymenpteros

V4 = Hempteros

V5 = Dpteros

V6 = Colepteros

107

V7 = Aranae

V8 = Diplpodes

V9 = Chilpodas

V10 = Crustceos

V11 = caros

V12 = Aneldeos

V13 = Moluscos

V14 = Umidade (H2O)

V15 = Temperatura
A Figura 32 mostra o banco de dados com as variveis 15 representadas
nas colunas, e as 32 coletas que representam os objetos nas linhas.

Figura 32 - Caixa de seleo das variveis e os objetos, para AF e ACP.

Para a realizao da anlise, seleciona-se, no menu de opes o mdulo


principal do STATISTICA, a opo: MultivariateExploratory Techniques Factor

Analysis, conforme a janela mostrada na Figura 33.

108

Figura 33 - Caixa de seleo da anlise fatorial.

Na Figura 34, apresenta-se a janela na qual so apresentadas as variveis


para anlise. Nessa janela, seleciona-se todas as variveis clicando em Select All,
isso se no houver variveis suplementares para serem analisadas, isto , variveis
que se deseja verificar o seu comportamento em relao as demais, sem que estas
faam parte da anlise inicial. Se houver variveis suplementares, essas devem ser
analisadas apenas no crculo unitrio, o qual oferece a opo de anlise para as
mesmas. Deve-se proceder da seguinte forma: manter o ctrl pressionado e
selecionar, apenas, as variveis desejadas, com o mouse.

Figura 34 - Caixa de seleo das variveis.

109

Na Figura 35, aps selecionadas as variveis, deve-se informar na opo da


janela input file, se os dados so os originais, conforme coletados, seleciona-se,

Raw Data e Ok.

Figura 35 Caixa de seleo para ACP.

Na Figura 36, determina-se o nmero de fatores que se deseja ter, na


anlise, da seguinte forma: coloca-se no Maximum no. of

factors o nmero

desejado. Neste caso, optou-se pelo nmero total de variveis que 13, pois no
poder haver nmero de fatores superior ao nmero de variveis. Em minimum

eingevalue, aconselha-se informar um valor bem baixo do tipo 0,001, pois, assim,
obtm-se o maior nmero possvel de autovalores, o que possibilita fazer uma
investigao melhor do estudo, caso contrrio pode-se informar um valor igual a 1 e
obtm-se, ento, somente os autovalores superiores a 1 e, desta forma, segue-se a
regra de KAISER (1960, apud MARDIA, 1979).
Deve-se lembrar que nem sempre o pesquisador est interessado nas
primeiras componentes, s vezes as componentes com menor grau de explicao
so as mais estveis, merecendo a devida ateno. Realizado isso, clica-se em Ok.

110

Figura 36 - Janela de seleo do nmero de fatores, para AF e ACP.

A Figura 37 mostra a caixa de seleo de comandos para a extrao dos


autovalores seleciona-se Explained variance/Eigenvalues. Nesta janela tem-se a
opo de verificar o mtodo grfico Scree plot, que representa, graficamente, a
porcentagem de variao explicada pela componente nas ordenadas e os
autovalores, em ordem decrescente, nas abscissas, sugerido por CATTEL (1966) e
exemplificado por PLA (1986), as comunalidades, a proporo de contribuio de
cada varivel factor loadings e outros valores de interesse.

Figura 37- Caixa de seleo para extrao dos autovalores.

111

Na Tabela 23 apresenta-se o resultado dos autovalores, bem como a


porcentagem de varincia explicada por cada componente, e tambm a varincia
acumulada pelas mesmas.
Numa anlise fatorial, considerando-se 13 variveis, poder-se-ia ter 13
fatores que corresponderiam s variveis originais. A escolha do nmero de fatores
pode levar em conta diferentes critrios. Um deles est em incluir, na anlise,
aquelas componentes que conseguem sintetizar uma varincia acumulada em torno
de 70%. Como se pode observar, na Tabela 23, quatro primeiros autovalores
representam cerca de 74,31% da varincia. Portanto, os dados sero resumidos
pelas quatro primeiras componentes principais. Pode-se, tambm, fazer, esta
seleo, incluindo-se somente aquelas componentes cujos valores prprios so
superiores a 1. Neste caso, so quatro autovalores, este critrio foi sugerido por
KAISER (1960) apud MARDIA (1979).

Tabela 23 Autovalores e percentual da varincia explicada de cada componente.


Autovalores
Extrao dos componentes principais
Nmero de
componentes

Autovalores

% da varincia

Autovalores

% da varincia

explicada

acumulados

explicada acumulada

4,30

33,05

4,30

33,05

2,35

18,10

6,65

51,15

1,78

13,66

8,43

64,82

1,23

9,49

9,66

74,31

0,94

7,27

10,60

81,58

0,83

6,42

11,44

87,99

0,52

3,98

11,96

91,97

0,35

2,66

12,30

94,63

0,26

1,99

12,56

96,62

10

0,19

1,43

12,75

98,05

11

0,13

0,99

12,88

99,04

12

0,09

0,66

12,96

99,70

13

0,04

0,30

13,00

100,00

112

Olhando para a Tabela 23, pode-se observar que os quatro primeiros fatores
possuem autovalores, que correspondem a 33,05%, 18,10%, 13,66%, e 9,49% da
varincia total, explicada pelos autovalores do modelo, ou seja, explicam juntos
74,31% das variaes das medidas originais. Decidindo-se por estes quatro fatores,
o pesquisador sabe qual o nvel de explicao est conseguindo de seus dados, e
decide se vale a pena a sntese fornecida por essa reduo de dimensionalidade, ou
se deve considerar todas as variveis. Conforme Pereira (2001), essa uma
medida de ajuste do modelo anlise de dados: no exemplo, o modelo com quatro
fatores ter 74,31% de representao real.
A Figura 38 mostra a seleo dos componentes principais atravs do mtodo
grfico Scree Plot, sendo que a porcentagem de variao explicada pela
componente est no eixo das ordenadas, e os autovalores esto representados em
ordem decrescente no eixo das abscissas. Como se pode observar, na Figura 35, as
quatro primeiras componentes explicam 74,31% da varincia total, havendo uma
estabilizao do grfico aps a quinta componente, sendo consideradas as quatro
primeiras. Pode-se observar, tambm, que as outras componentes apresentam uma
baixa explicao, no sendo aconselhvel inclu-las na anlise.

5,0
4,5

33,05%

4,0
3,5

Autovalores

3,0
18,10%

2,5
2,0

13,66%

1,5

9,49%
7,27%
6,42%

1,0

3,98%
2,66%
1,99%
1,43%,99%
,66%,30%

0,5
0,0
-0,5
-2

10

12

14

16

Nmero de autovalores

Figura 38- Grfico de explicao da proporo de variao de cada componente principal.

113

A Figura 39 mostra a caixa de seleo e comandos das anlises estatsticas


que possam ser de interesse do pesquisador. Lembra-se, que essas estatsticas so
referentes s variveis originais, e no aos valores derivados das componentes
principais.

Figura 39 - Caixa de seleo das anlises estatsticas.

A Figura 40 mostra uma caixa de seleo na qual mais ferramentas


estatsticas so disponibilizadas, para se fazer uma anlise complementar a AF e

ACP.
Como a AF e a ACP so tcnicas exploratrias de dados, importante que
se realize uma estatstica descritiva nas variveis, para que haja uma melhor
compreenso nos resultados obtidos.

Figura 40 - Caixa de comandos para anlise descritiva dos dados.

114

A Figura 41 mostra a mdia e o desvio padro de cada uma das variveis


originais, que se obtm selecionando-se Means & SD na Figura 40.

Figura 41 - Caixa de resultados da estatstica descritiva.

Na Figura 42, apresenta-se o resultado da matriz de correlao entre as


variveis, a qual obtida selecionando-se, Advanced/Correlations, conforme Figura
40.

Figura 42 - Caixa de resultados da matriz de correlao.

Com a matriz de correlao, da Figura 42, possvel observar que existe


um nmero representativo de valores superiores a 0,7, o que significa que a
correlao entre as variveis est de moderada a forte. Sendo assim, pode-se

115

concluir que as variveis esto interligadas umas com as outras. O ideal realizar
um teste de significncia para as correlaes, pois desta forma tm-se a certeza se
a correlao significativa ou no. O que chancela para a realizao da AF seria o

KMO teste e o teste de Bartellet. Isso mostra que o estudo das variveis no deve
ser feito de forma isolada, mas, sim, de maneira conjunta, com a utilizao de uma
tcnica adequada, neste estudo a ACP.
A Figura 43 mostra a caixa de seleo de comandos para ACP, selecionase: Scores/Factor score coefficients, para extrair os autovetores, que definam a
direo dos eixos, para AF e ACP.

Figura 43 - Caixa de seleo dos autovetores.

Na Figura 44, so apresentados os resultados dos factor Score coefficientes


(autovetores), que definem a direo dos eixos para ACP.

Figura 44 - Caixa de resultados dos autovetores.

116

No exemplo, que segue, mostrado o clculo manual das componentes


principais:
CP1 = (Autovetor 11)(Varivel 11) + (Autovetor 21)(Varivel 12) + (Autovetor 31)(Varivel 13) + ....... +
(Autovetor 131)(Varivel 113)
CP11 = (-0,21)(5,5) + (0,01)(0) + (0,10)(0,5) + (-0,19)(0,25) + (-0,06)(0,75) + (-0,19)(2,5) +
(-0,02)(0,25) + (-0,04)(0) + (-0,07)(0,25) + (-0,21)(0,75) + (-0,21)(4,75) + (-0,08)(2) + (-0,06)(0)
CP11 = -3,01
CP12 = (-0,21)(4) + (0,25)(0) + (0,10)(0,75) + (-0,19)(0) + (-0,06)(0) + (-0,19)(0,5) + (-0,02)(0,25) +
(-0,04)(0,5) + (-0,07)(0,75) + (-0,21)(0,25) + (-0,21)(2,5) + (-0,08)(7,5) + (-0,06)(0,5)
CP12 = -2,15

Como pode-se observar, o valor da primeira componente principal,


realizando-se os clculos de forma manual, -3,01, e o valor encontrado pelo

software de -4,35, conforme Figura 50. Isso ocorre devido transformao


realizada pelo programa ao rodar os dados, ou seja, o valor das componentes
principais, encontradas de forma manual, no ser o mesmo que o fornecido pela
anlise.
Para encontrar os componentes principais, atravs do software, deve-se
selecionar a opo do programa statistica, referente a esta anlise. Para isso
seleciona-se: Multivariate Exploratory Techniques Principal Components &

Classification Analysis, conforme a Figura 45:

Figura 45 - Caixa de seleo da ACP.

117

A Figura 46 mostra a caixa de seleo de variveis e comandos para ACP.


Clica-se em Variables e o programa mostrar todas as variveis, e s clicar em

Ok.

Figura 46 - Caixa de seleo da ACP.

Na Figura 47, apresenta-se a totalidade de variveis para anlise. Neste


caso, aps selecionadas as variveis, clica-se em Ok.

Figura 47 - Caixa de seleo das variveis para ACP.

118

A Figura 48, na opo Variables for analysis: mostra que todas as variveis
foram selecionadas, no existindo variveis suplementares para o estudo, basta
clicar em Ok.

Figura 48 - Caixa de seleo da ACP.

A Figura 49 mostra a caixa de seleo para encontrar os componentes


principais, seleciona-se Cases/Factor scores, e clica-se em Ok.

Figura 49 - Caixa de seleo dos componentes principais.

119

A Figura 50 refere-se aos componentes principais encontrados na anlise.


importante observar que, pelo fato de existir 13 variveis, foram encontrados 13
componentes, mas pela anlise fatorial, seguindo o critrio sugerido por KAISER
(1960) apud MARDIA (1979), deve-se considerar apenas as primeiras quatro
componentes principais.

Figura 50 - Componentes principais, referente s treze variveis.

Quando os dados estiverem dispostos em unidades de medidas diferentes,


deve-se eliminar a influncia que uma varivel poder causar sobre a outra na
formao das componentes. Deve-se fazer ento a padronizao dos dados.
Utilizando-se o software statistica, pode-se padronizar o conjunto de dados,
fazendo-se a seleo do banco de dados inicial, conforme a Figura 51.

120

Figura 51 - Seleo das variveis para a padronizao dos dados.

Logo aps, clicar, com o boto auxiliar, no meio da tela, na qual esto as
variveis selecionadas. Abrir a caixa de seleo da Figura 52, na qual existem duas
opes de padronizao: por colunas, sendo esta a utilizada neste trabalho,
selecionando

Fill/Standardize

Block/Standardize

Columns,

ou

selecionando Fill/Standardize Block/Standardize Rows.

Figura 52 - Caixa de seleo para a padronizao das variveis.

por

linhas,

121

A Figura 53 mostra as variveis padronizadas.

Figura 53 - Variveis padronizadas.

Aps ter-se realizado a padronizao das variveis, deve-se encontrar a


contribuio de cada varivel, em relao aos fatores formados nos Factor Loading.
Existem duas formas de encontrar esta contribuio:
1) Uma forma atravs da matriz de correlao entre as variveis originais e as
componentes principais. Para verificar a correlao existente entre as variveis
originais e as componentes principais, deve-se selecionar, na Figura 54, a opo

Save case statistics e a opo Factor Scores deve estar selecionada, Ok.

122

Figura 54 - Caixa de seleo para anlise de componentes principais.

Selecionar as variveis, que se deseja salvar, e Ok, conforme Figura 55:

Figura 55 - Caixa de variveis para anlise de componentes principais.

A Figura 56 mostra as variveis originais, e as componentes principais, que


sero utilizadas para compor as correlaes, dentro de cada fator.

123

Figura 56 - Caixa com variveis originais e as componentes principais.

124

Para

fazer

matriz

de

correlao,

seleciona-se

Statistics/Basic

Statistics/Tables, conforme Figura 57:

Figura 57 - Caixa de seleo da estatstica descritiva.

Selecionando, na Figura 58, Correlation matrices e Ok, abre-se uma caixa


de opes para encontrar a matriz de correlao entre as variveis originais e as
componentes principais.

Figura 58 - Caixa de seleo para matriz de correlao entre variveis originais


e as componentes principais.

Selecionando a opo Two lists (rect. matrix), possvel visualizar todas as


variveis e as componentes que se deve selecionar, para que seja possvel verificar
as correlaes, conforme Figura 59.

125

Figura 59 - Caixa de seleo das variveis que iro compor a matriz de correlao.

A Figura 60 mostra as variveis e as componentes a serem selecionadas.

Figura 60 - Caixa com as variveis e as componentes selecionadas.

Na Figura 61, selecionando a opo Summary: Correlation matrix, encontrase a matriz de correlao.

126

Figura 61 - Caixa de seleo da matriz de correlao.

A Figura 62 mostra a matriz de correlao entre as variveis originais e as


componentes principais e a contribuio de cada varivel em relao a cada fator.

Figura 62 - Matriz de correlao entre as variveis originais e as componentes principais.

Na Figura 62, os valores que esto em destaque representam a contribuio


de cada varivel em cada fator, ou seja, no fator 1, -0,89; 0,41; -0,84; -0,81; -0,89 e
-0,90 que so as que esto em destaque neste fator, ou ainda, so as que melhor o
explicam este fator.

127

2) Outra forma de encontrar a contribuio das variveis em relao aos fatores


formados, mediante os Factor loadings. Aqui, o nmero de fatores a serem
utilizados na anlise quatro, pois foram apenas esses os autovalores superiores a
1, encontrados na anlise, conforme Tabela 23.
A Figura 63 mostra a caixa de seleo de comandos para a ACP.
Retornando para a AF, seleciona-se: Loadings/ Factor rotation seleciona-se

unrotated/ Summary: Factor loadings, para ver quanto cada varivel contribui na
formao de cada componente. Tambm nesta janela tem-se a opo de verificar o
mtodo grfico Plot of loadings, 2D, que representa, graficamente, os planos
fatoriais, mostrando a importncia de cada varivel no estudo. Nesta janela ainda h
a opo do mtodo grfico Plot of loadings, 3D, que possibilita identificar a
localizao das variveis num espao tri-dimensional.

Figura 63 - Caixa de seleo dos Factor Loadings.

Conforme Pereira (2001), o passo final da AF verificar se os fatores, que


so dimenses abstratas, podem ser interpretados de forma coerente com a
natureza dos fenmenos estudados. Para isso, deve-se analisar a matriz fatorial, na
qual esto os factor loadings, e verificar quais as variveis que melhor se
correlacionam com cada fator.
Em ACP, a derivao de fatores se d por vrias rotaes de eixos que
melhor expressem a disperso dos dados. No modelo fatorial final, as variaes das
medidas esto maximizadas, e as relaes entre dimenses suavizadas. Devido a

128

isso, o pesquisador dever buscar relao entre os fatores e as variveis originais


numa matriz fatorial rodada (PEREIRA, 2001).
A Figura 64 mostra o resultado dos Factor Loadings, antes da rotao nos
eixos, e mostra a contribuio das variveis na formao dos componentes.

Figura 64 - Composio dos fatores.

Na Figura 64, pode-se visualizar as ponderaes de cada varivel que iro


compor a combinao linear. Observa-se que os valores em destaque so os que
possuem uma significncia maior que 0,7. Este valor de significncia pode ser
alterado segundo as necessidades do pesquisador, conforme mostra a Figura 63,
sob o nome de Highlight factor loadings greater than.
O ideal identificar, em cada combinao linear, um conjunto de variveis
que representa este fator e, a partir da, atribuir-se um nome para o fator. Esta
abstrao, para o fator, passa a identific-lo, representando um conjunto de
variveis. Quando esta identificao ficar difcil, por apresentar mais de um grupo de
variveis significativas no mesmo fator, ou em fatores diferentes, recorre-se
realizao de rotaes, pois, desta forma, mantem-se a mesma inrcia no conjunto
analisado, mas os eixos so rotacionados, possibilitando uma melhor visualizao
da disposio dos pontos. Existem diversos tipos de rotaes, as quais devem ser
estudadas para maior entendimento, e deve-se verificar em quais situaes elas

129

devem ser utilizadas. A rotao mais utilizada a Varimax normalizada, pois esta
mantem os eixos perpendiculares entre si, ou seja, ortogonais.
A Figura 65 mostra a caixa de seleo de comandos para ACP, selecionase: Loadings/ no Factor rotation (Varimax normalized)/Summary:Factor loadings,
para se fazer a rotao nos eixos, possibilitando uma melhor visualizao das
variveis mais representativas em cada componente.

Figura 65 - Caixa de seleo para a rotao varimax normalized.

A Figura 66 mostra o resultado dos Factor Loadings, aps a rotao varimax

normalized.

Figura 66 - Composio dos fatores.

130

Observa-se, na Figura 66, que a rotao varimax normalized possibilitou


uma melhor visualizao dos fatores, nos quais a proporo de variao das
variveis est melhor representada. Observa-se que os valores que possuem uma
significncia igual, ou superior, a 0,7 esto em destaque em cada fator.
Neste estudo, utilizar-se- todos os quatro fatores que possuem as variveis
explicativas, pois atravs do mtodo grfico sugerido por CATTEL (1966), esses
fatores explicam a maior varincia.
Pode-se concluir, ainda, que o fator 1 o mais importante para o estudo,
pois derivado do maior autovalor e possui uma explicao de 33,05%, sendo que
as variveis, que mais contribuem neste, so representadas pelos seguintes
organismos: Colmbolos, Hempteros, Colepteros, Crustceos e caros, podendo
este ser denominado de classe Insecta; o fator 2 e o fator 3, so explicados por duas
variveis, apenas. O fator 2, pelas variveis representadas pelos Aneldeos e
Moluscos, podendo este ser denominado de classe Crustcea, e o fator 3 pelas
variveis Ispteros, Diplpodes, podendo este ser denominado de filo Artropoda. J
o fator 4 explicado apenas por uma varivel, representada pelo organismo Aranae,
podendo este ser denominado de Predador.
Para que haja uma melhor visualizao desses fatores, optou-se em utilizar
os grficos de disperso, ou os planos fatoriais, que examinam a localizao das
variveis num sistema de coordenadas criado pelos fatores.
Na Figura 63, ao selecionar a opo Plot of loadings, 2D, pode-se analisar
todos os fatores encontrados, sendo que, apenas aqueles fatores que apresentarem
variveis explicativas, traro a devida contribuio para o estudo, de forma que se
possa identificar quais as variveis possuem uma maior representatividade nos
planos fatoriais.
Os fatores a serem relacionados, neste primeiro plano, so: Factor 1 com

Factor 2, clica-se em Ok, conforme Figura 67.


importante salientar que a classe Insecta composta de cinco variveis
predominantes que possuem uma maior contribuio para este fator, conforme
mostram os valores em, destaque na Figura 66. Sendo assim, esse o fator mais
importante para anlise, pois ele deriva de um autovalor de 4,30 que corresponda a
uma varincia explicada de 33,05 que pode ser visualizado na Tabela 23. Logo, ao

131

fazer os planos fatoriais, a classe Insecta ser mantida fixa no eixo do x, e os fatores
do eixo y sero modificados a cada plano, para que se possa verificar a importncia
de cada varivel na formao de cada fator.

Figura 67 - Caixa de seleo dos fatores, para fazer planos fatoriais.

Antes de interpretar a Figura 68, deve-se levar em considerao que, se a


varincia for nula, ou prxima de zero, significa todos os indivduos esto prximos,
ou em cima, da origem do plano principal da nuvem de pontos, e possuem baixa
representatividade. Pode-se, ento, interpretar o plano principal da nuvem de pontos
como sendo o plano que torna mxima a varincia do conjunto dos n pontos
projetados sobre ele.
A Figura 68 corresponde relao entre as variveis da classe Insecta e da
classe Crustcea, da AF. Analisando a Figura 68, observa-se que as variveis
formam grupos por similaridades de explicao, ou seja, esto agrupadas por
fatores. As variveis que melhor representam a classe Insecta formam um grupo
distinto dos demais, e so representadas pelos organismos: Colmbolos,
Hempteros, Colepteros, Crustceos e caros, estando localizadas distantes da
origem, sendo estas que possuem uma maior representatividade em relao a
classe Insecta, pois se forem traadas perpendiculares em relao a esse fator,
pode-se verificar que essas variveis so as que esto localizadas mais distante da
origem. As variveis que melhor representam a classe Crustcea, e formam outro
grupo distinto, so as seguintes: Aneldeos, Moluscos e Chilpodas. O restante das

132

variveis possuem baixa representatividade, por estarem localizadas prximas


origem do plano fatorial.
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.

0,8

CHILOP.

Classe Crustcea

0,6
0,4

CRUSTACE
COLEM.

DIPLOP.

CAROS

0,2

ARANAE

0,0

ISOP.

HEMIP.
COLEOP.

-0,2
DIP.

HYMENOP
-0,4
-0,6
-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Classe Insecta

Figura 68 - Grfico representando a relao entre fatores (fator 1 e fator 2) e variveis segundo factor
loadings.

Pode-se concluir ainda, na Figura 68, na qual fica evidente como as


variveis agrupam-se e como so suas relaes com os eixos, os factors loadings,
referentes aos fatores 1 e 2. As variveis que melhor representam a classe Insecta
so as que melhor a explicam, ou seja, as que esto mais distantes da origem, em
relao ao eixo do x, representadas pela elipse maior.
As variveis que melhor representam classe Crustcea so as que esto
contidas na elipse menor, ou seja, as que esto mais distantes da origem, em
relao ao eixo y, sendo as que melhor explicam esse fator.
As demais variveis possuem baixa representatividade, devido ao fato de
estarem prximas da origem, em relao aos dois eixos.
A anlise que auxilia a interpretao dos planos fatoriais anlise de
agrupamentos, pois esta serve para confirmar se as varveis que esto num mesmo
grupo so as mesmas que explicam determinado fator.

133

A Figura 69, que representa os planos fatoriais correspondentes a classe


Insecta e a classe Crustcea da ACP, neste plano, foram traadas perpendiculares,
como pode-se observar em relao a classe Insecta, que representada no eixo x.

Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.

0,8

CHILOP.

II

0,6

Fator 2

0,4

CRUSTACE
COLEM.

DIPLOP.

0,2

ARANAE

III

CAROS

0,0
ISOP.

HEMIP.
COLEOP.

-0,2
DIP.

HYMENOP
-0,4
-0,6
-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Fator 1

Figura 69 - Grfico dos planos fatoriais, que representam as perpendiculares em relao ao fator 1.

Observando a Figura 69, pode-se concluir que o grupo I o mais


representativo, em relao classe Insecta, pois este o que est localizado na
extremidade do eixo x e, portanto, o mais distante da origem do eixo cartesiano,
logo, possui a maior influncia. Para se encontrar as distncias de cada varivel,
traa-se um segmento de reta perpendicular ao eixo x, que representa a classe
Insecta. Aps realizada esta tarefa, verifica-se qual a varivel, ou o conjunto de
variveis, que est localizado mais distante da origem, partir da perpendicular. As
variveis que estiverem mais distantes possuiro maior influncia em relao ao
fator examinado.
A Figura 70 representa os planos fatoriais da relao entre a classe Insecta
e a classe Crustcea da AF, Nesses planos, o segmento de reta ser traado
perpendicular ao eixo y, que representa a classe Crustcea. A anlise realizada de

134

forma anloga classe Insecta, levando-se em considerao, neste caso, a classe


Crustcea.

Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.

0,8

CHILOP.

II

Classe Crustcea

0,6
0,4

CRUSTACE
COLEM.

DIPLOP.

0,2

ARANAE

III

CAROS

I
0,0
ISOP.

HEMIP.
COLEOP.

-0,2
DIP.

HYMENOP
-0,4
-0,6
-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Classe Insecta

Figura 70 - Grfico dos planos fatoriais, que representam as perpendiculares traadas em relao ao
fator 2.

Observando-se esse grfico, o grupo II, das variveis que esto contidas na
elipse menor, constata-se que so as variveis que possuem uma maior
representatividade em relao a classe Crustcea, pois esto localizadas distante da
origem, sendo que as demais variveis possuem baixa representatividade em
relao a este fator.
A Figura 71 representa os planos fatoriais, da relao entre variveis da
classe Insecta com as variveis da classe Crustcea da AF. Nestes planos foram
traadas perpendiculares em relao bissetriz dos planos, fazendo-se uma anlise
conjunta de duas classes.
Aps, encontra-se o significado, isto , atribui-se um nome para cada fator e
pode-se verificar como as variveis esto influenciando, concomitantemente, estes
fatores. Para tal, traa-se a bissetriz, que passa pelo primeiro e terceiro quadrantes
do plano fatorial, e, novamente, traa-se segmentos de reta perpendiculares

135

bissetriz. Novamente, as variveis mais distantes da origem sero as mais


importantes.
Da Figura 71, pode-se concluir que as variveis de maior expresso, em
relao a esses dois planos, continuam sendo as que esto contidas nos crculos
em vermelho e rosa, as quais possuem uma maior distncia em relao origem
desses planos, sendo que as variveis que melhor representam a classe Insecta
esto contidas no grupo I, e as que melhor representam a classe Crustcea esto
contidas no grupo II.
Nos outros planos fatoriais, que correspondem a classe Insecta x filo
Artropoda e a classe Insecta x Predadores, a anlise realizada de forma anloga a
este exemplo.
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.

0,8

CHILOP.

II

0,6

Fator 2

0,4

CRUSTACE
COLEM.

DIPLOP.

CAROS

0,2

ARANAE

III

0,0
ISOP.

HEMIP.
COLEOP.

-0,2
DIP.

HYMENOP
-0,4
-0,6
-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Fator 1

Figura 71 - Grfico dos planos fatoriais, da relao entre variveis do fator 1 com 2 em relao
bissetriz.

Ao selecionar a opo Loadings/ Plot of loadings, 3D na Figura 65, obtm-se


a Figura 72, que mostra a localizao das variveis num espao tri-dimensional,
oferecendo uma visualizao das variveis.

136

Plano Fatorial: Fator 1 x Fator 2 x Fator 3

DIPLOP.
ISOP.
COLEM.
ANELID.
MOLUSC.

COLEOP.
CAROS
CRUSTACE
HEMIP.

CHILOP.
HYMENOP
ARANAE

DIP.

Figura 72 - Grfico do plano tri-dimensional, da ACP.

A Figura 73 mostra o mdulo principal do STATISTICA, para encontrar os


planos principais, que possibilitaro visualizar a nuvem de variveis que melhor
representa cada plano, bem como a nuvem de pontos que mostra a localizao de
cada objeto (estado) em relao s variveis nos planos principais, para isso
seleciona-se: Multivariate Exploratory Techniques Principal Components &

Classification Analysis:

Figura 73 - Caixa de seleo da ACP.

A Figura 74 mostra a caixa de seleo de variveis e comandos para ACP.


Clica-se em Variables, e o programa mostrar todas as variveis.

137

Figura 74 - Caixa de seleo da ACP.

Se o pesquisador quiser estudar todas as variveis, basta selecion-las e


clicar em Ok. Se no estudo tiver algumas variveis suplementares, isto , que o
pesquisador busque identificar seu comportamento, em relao s outras variveis,
basta selecionar as variveis que no so suplementares na primeira janela, que diz,
logo abaixo, Variables for analysis, e na outra janela selecionar as variveis
suplementares, sendo que estas podem ser uma ou mais, na janela Supplementary

variables e, a seguir, s clicar em Ok.


Na Figura 75, apresenta-se a totalidade de variveis para anlise. Neste
caso, aps selecionadas todas as variveis, clica-se em Ok.

Figura 75 - Caixa de seleo das variveis para ACP.

A Figura 76, na opo Variables for analysis: mostra que todas as variveis
foram selecionadas, inclusive as suplementares, basta clicar em Ok.

138

Figura 76 - Caixa de seleo da ACP.

A Figura 77 mostra a caixa de seleo de variveis e comandos para ACP.


Seleciona-se Variables/Plot case factor coordinates, 2D, e clica-se em Ok, para fazer
os planos principais, com a nuvem de variveis.

Figura 77 - Caixa de seleo da ACP.

A Figura 78 mostra os fatores a serem relacionados, neste primeiro plano


principal, que so: Factor 1 x Factor 2 e, em seguida, clica-se em Ok.
importante lembrar que os fatores de um a quatro so os que possuem as
variveis explicativas. Portanto, aqui tambm os fatores sero relacionados de forma
anloga aos planos fatoriais.

139

Figura 78 - Caixa de seleo dos fatores.

A interpretao dos componentes principais , sem dvida, um dos pontos


mais delicados da anlise. Aqui, dois aspectos devem ser explorados: o primeiro a
correlao das variveis originais com as componentes, que fornecero a
contribuio de maior relevncia, conforme explicado no item 3.2 e mostrado na
Figura 62. O outro aspecto realizar a anlise considerando os indivduos que esto
sendo estudados.
A Figura 79 mostra o crculo de correlao unitrio, com a nuvem de
variveis.
Projeo das variveis referentes ao Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
CHILOP.

Classe Crustcea: 18,10%

0,5

DIPLOP.

II

*H2O
ISOP.
ARANAE

CRUSTACE
COLEM.
0,0

ACAROS
HYMENOP
*Temp
COLEOP.
HEMIP.
DIP.

-0,5

III

IV

-1,0
-1,0

-0,5

0,0

0,5

1,0

Classe Insecta : 33,05%

Figura 79 - Grfico da distribuio da nuvem de variveis, no crculo de correlaes.

Uma das utilizaes do crculo unitrio realizando a sobreposio deste


sobre o primeiro plano fatorial, desta forma possvel identificar visualmente que
variveis esto relacionadas com os casos em estudo.

140

Como pode-se observar, na Figura 79, algumas variveis esto sobrepostas


umas s outras. Isso mostra que essas possuem a mesma representatividade no
grfico. Outro fato importante, que algumas variveis esto bem prximas ao
crculo unitrio. Isso mostra que estas possuem uma maior contribuio, em relao
s variveis que esto mais afastadas.
Conclui-se, tambm, que as variveis localizadas nos quadrantes II e III
sofrem influncia da umidade, pelo fato da umidade estar localizada no mesmo
quadrante que estas variveis, mas no so influenciadas pela temperatura, que
est localizada no quadrante oposto, a essas. As variveis localizadas no I e IV
quadrante possuem influncia apenas da temperatura, por estarem localizadas
nestes quadrantes.
A Figura 80 mostra a caixa de seleo de variveis e comandos para ACP.
Seleciona-se Cases/Plot case factor coordinates, 2D, e clica-se em Ok, para fazer os
planos principais, com a nuvem de pontos dos indivduos (as coletas).

Figura 80 - Caixa de seleo da ACP.

A Figura 81 mostra os fatores a serem relacionados para a nuvem de


pontos dos indivduos. Neste caso, relaciona-se Factor 1 com Factor 2, e clica-se em

Ok.

141

Figura 81 - Caixa de seleo dos fatores para ACP.

A Figura 82 mostra o primeiro plano principal, com a nuvem de pontos dos


indivduos.

Projeo dos indivduos em relaao ao plano fatorial

Fator 1 x Fator 2

6
C2 C13

Fator 2: 18,10%

C14
C9
C15
C11
C12
C6
C10
C28
C8C27
C7
C22
C23
C25
C21
C17
C19
C26
C4C30
C24
C29
C16C5C18
C3

-2
C1
-4

-6

-8
-14

-12

-10

-8

-6

-4

-2

Active

Fator 1: 33,05%

Figura 82 - Grfico da distribuio da nuvem de pontos (os estados).

Analisando-se o grfico da Figura 79, da distribuio da nuvem de variveis


em relao ao grfico da Figura 82, da distribuio da nuvem de pontos, pode-se
concluir que as variveis Colmbolos, Hempteros, Colepteros, Crustceos e
caros so as mais representativas. Isto significa que foram encontradas em maior
abundncia no solo, em relao a estes dois fatores, e a coleta, que mais contribui
na formao da combinao linear da classe Insecta, a primeira (C1), pois est

142

representando estas cinco variveis. Pode-se concluir, ainda, que as coletas que
possuem uma maior contribuio, na formao da combinao linear da classe
Crustcea, a segunda e a dcima terceira coleta (C2 e C13), que representam as
variveis Aneldeos, Moluscos, Chilpodas e Diplpodes. O restante dos organismos
e coletas no apresentam representatividade significativa, em relao a estes dois
fatores.
Nos outros planos principais, que correspondem ao fator 1 x fator 3 e fator 1

x fator 4, a anlise realizada de forma anloga a esse exemplo.


importante salientar que a interpretao da ACP consiste em definir o que
representa cada eixo, em termos de fator, responsvel pela ordenao das
amostras, do assunto que est sendo estudado. Conforme Valentin (2000), a
interpretao de um eixo deve ser baseada nas coordenadas das variveis neste
eixo, a partir das quais foi elaborada a matriz de correlao que deu origem aos
autovetores. Ao realizar ACP, deve-se observar os seguintes princpios:

 que uma proximidade maior, ou menor, entre dois pontos-variveis, no plano,


traduz uma maior, ou menor, correlao entre essas variveis, principalmente
quando elas so afastadas do centro do plano;

 a proximidade entre dois pontos-amostra (objeto) traduz uma certa similaridade


entre essas duas amostras, em termos de variveis.

Comentrios desse captulo

Nesse captulo, foi possvel, desenvolver dois exemplos, utilizando-se dados


reais. O primeiro, aplicando-se a tcnica de AA, utilizou-se os dados referentes aos
principais produtos que compe a produo nacional de gros, no perodo de 1995 a
2002. O segundo exemplo aplicou-se a tcnica de ACP e AF, cujos dados eram
referentes a 30 coletas da fauna edfica do solo, no perodo de junho de 2004 a
janeiro de 2005. Encontra-se, tambm, descrito, neste captulo 4, como realizar as
interpretaes pertinentes a cada etapa da anlise. Consta, ainda, nesse, todas as
etapas necessrias para que seja possvel desenvolver as tcnicas de anlise de
agrupamentos, anlise de componentes principais e anlise fatorial.

143

5 REALIZANDO PESQUISAS
Neste captulo sero apresentados quatro estudos de casos, para
exemplificar o uso das tcnicas multivariadas.
O primeiro artigo que versa sob o ttulo: mtodos multivariados: uma

metodologia para avaliar a satisfao dos clientes da RBS-TV na regio noroeste do


rs, trata de uma aplicao sobre a satisfao dos clientes. Este artigo foi
apresentado no the 9th World multi-conference on Systemics, Cybernetics and

Informatics, 2005 Orlando USA. Aqui apresenta-se a verso em portugus para


maior facilidade dos leitores.
O segundo artigo que versa sob o ttulo: Aplicao da anlise multivariada

em dados de rendimentos de ensino, trata sobre a aplicao, em dados dos colgios


militares brasileiros com o objetivo de traar o perfil dos alunos em relao aos seus
rendimentos. Este artigo foi apresentado no XXV Encontro Nacional de engenharia
de Produo e XI International Conference on Industrial Engineering and Operational

Managment, 2005 - Porto Alegre - RS.


O terceiro artigo que versa sob o ttulo: Produo agrcola: uma sintese

mediante tcnicas estatsticas, analisa a produo nacional de gros, no perodo de


1995 a 2002, com o objetivo de verificar como esta produo se comportou neste
perodo, bem como mostrar estatisticamente as diferenas significativas entre as
regies produtoras. Este artigo foi apresentado no XXXVII Simpsio Brasileiro de

Pesquisa Operacional PO e o Desenvolvimento Sustentvel, 2005 Gramado RS.


O quarto artigo que versa sob o ttulo: avaliao da fauna edfica em campo

nativo mediante tcnicas da anlise multivariada, trata da fauna edfica do solo


numa rea de campo nativo e tem como objetivo verificar se a temperatura e a
umidade influenciam na quantidade e diversidade de organismos existentes no
mesmo. Este artigo foi apresentado no O 11 Simpsio de Estatstica Aplicada

Experimentao Agronmica (SEAGRO) e a 50 Reunio Anual da Regio Brasileira


da Sociedade Internacional de Biometria (RBRAS), 2005 Londrina PR.
Apresenta-se a formatao dos artigos conforme solicitado, para a sua submisso
aos referidos eventos.

144

ARTIGO 1
MTODOS MULTIVARIADOS: UMA METODOLOGIA PARA AVALIAR A
SATISFAO DOS CLIENTES DA RBS-TV NA REGIO NOROESTE DO RS

Gilvete Silvania Wolff Lrio.


Adriano Mendona Souza.
Resumo
A busca pela qualidade dos servios oferecidos pelas empresas, vem crescendo
gradativamente, a cada ano; uma vez que o cliente satisfeito com um servio oferecido tem
sido a principal meta das empresas que procuram manter-se competitivas no mercado. Esse
trabalho procurou avaliar a satisfao dos clientes da RBS-TV, da regio noroeste do estado
do Rio Grande do Sul, aps o recebimento de um determinado servio. Para isso, procedeu-se
a elaborao de um questionrio com perguntas acerca da satisfao do servio recebido.
Inicialmente, partiu-se para a anlise do questionrio, onde recorreu-se aos mtodos
multivariados, dentre eles a Anlise de Componentes Principais, Anlise Fatorial e a Anlise
de Cluster, para identificar quais as variveis de maior relevncia estatstica mostrado atravs
dos planos fatoriais aps a extrao das componentes principais.O nmero de variveis
originais foi composto de 14 variveis que, aps a aplicao dos mtodos suplacitados
estudou-se apenas 4 variveis. Aps a aplicao dos mtodos multivariados pode-se concluir
que os clientes da RBS-TV escolhem esse veculo de comunicao pelo retorno que possuem
com a mdia, a presteza do agente que os atende, por o anncio publicado ter atendido suas
necessidades e por ltimo as condies de pagamento.Os resultados obtidos sero usados pela
empresa para melhorar o atendimento e o desempenho frente aos seus clientes, trazendo,
assim, um retorno financeiro em maiores propores.

Palavras chave: Qualidade em Servios, Anlise de Componentes Principais, Anlise


Fatorial, Anlise de Cluster.

1. Introduo
A crescente importncia atribuda ao setor de servios tanto na economia brasileira
quanto internacionalmente, vem levando diversas organizaes empresariais a refletirem
sobre os nveis adequados de excelncia na prestao e servios para os clientes.
Hoje em dia, o mercado vem forando as empresas em geral a buscarem um diferencial
ao focalizarem os servios como recursos para a agregao de valores aos produtos postos
disposio dos consumidores, classificando-os sob modernos parmetros de anlise, no que
tange aos desejos e as reais necessidades desses consumidores.
Tem-se observado ainda, principalmente a partir das ltimas dcadas do sculo XX, a
existncia de maior concorrncia nos mercados cada vez mais globalizados, o que tem levado
a uma grande exigncia por parte das empresas medida que elas passaram a adotar
estratgias focadas nos clientes. Tal movimento trouxe como conseqncia um aumento de
estudos e pesquisas relacionados com o comportamento do consumidor, tal como sugerem
Rossie e Fonseca (2000).
Alm disso, o setor de servios tem se caracterizado como aquele que mais emprega na
economia nacional. Externamente, esse setor encontra-se bastante diversificado, incluindo

145

uma elevada gama de atividades diferentes, que varia desde empreendimentos gigantescos,
que operam em uma base global, ate pequenas empresas que atendem a uma nica cidade ou
bairro.
Apesar dos servios se encontrarem presentes no cotidiano das pessoas e das
organizaes, foi somente a partir do advento da revoluo industrial que eles se tornaram
mais complexos e diversificados. A partir disso, o surgimento das profundas mudanas na
produo e nos setores financeiros, redes de transportes e de comunicaes levaram as
empresas a revisarem os seus mtodos e tcnicas de gesto, de forma a permitir uma maior
agilidade na tomada de decises e, conseqentemente, ganhos de mercado.
Na viso de Bateson e Hoffman (2001), o crescimento econmico acabou estimulando o
crescimento da indstria de servios, fazendo aumentar o nvel de prosperidade que levaram,
conseqentemente, as pessoas fsicas e jurdicas a ter menos tempo, optando com isso pela
troca de dinheiro por tempo, isto , as novas tecnologias trouxeram mudanas significativas
na natureza de diversos servios j existentes, bem como na criao de outros.
A nova postura tomada pelas organizaes em funo do novo cenrio econmico fruto
do mundo globalizado, tem levado as empresas a se posicionar no mercado procurando
atender as necessidades de um consumidor cada vez mais exigente.
Tm-se verificado ainda que o aumento e a capacitao das empresas concorrentes, em
funo de uma forte exigncia por parte dos clientes, vem fazendo com que a ampliao do
mercado de atuao da empresa junto a clientela no somente garanta um nvel de
lucratividade considervel, como tambm alavanque uma maior fidelizao dos seus produtos
ou servios.
No setor de servios Boiton e Lemon (1999) enfatizaram que cabe a empresa prestadora
da benfeitoria determinar a freqncia de seus contatos com os seus clientes, baseando-se em
avaliaes que fazem acerca de experincias com o servio que fora ofertado. Vale destacar
que os nveis dessa procura podem exercer um considervel impacto na lucratividade da
organizao no longo prazo.
Nesses termos, a qualidade do setor de servios de uma organizao, mais do que um
diferencial acaba representando uma condio sine qua non de sobrevivncia no mercado,
uma vez que a melhoria contnua da tecnologia, dos processos internos, das metas e dos
valores das organizaes leva a uma identificao das necessidades e dos desejos dos
consumidores visando fideliz-los a uma marca ou um servio prestado.
Finalmente, este trabalho encontra-se estruturado em cinco sees, a sabe: a segunda
seo faz uma breve reviso bibliogrfica sobre a qualidade e satisfao na prestao de
servios aos consumidores. A terceira seo mostra os aspectos metodolgicos. A quarta
seo evidencia os resultados empricos e a quinta seo traz as consideraes finais e
recomendaes para trabalhos futuros.

2. A Qualidade e a Satisfao com a Prestao de Servios


A satisfao dos consumidores passou nas ltimas dcadas a ser apontada como um dos
pilares da rea de marketing em servios, de forma que vem levando diversas empresas a
buscarem um diferencial medida que procura atender as reais necessidades de clientes mais
conscientes exigentes nesse mundo cada vez mais competitivo.
Na rea de marketing, a satisfao dos consumidores pode ser abordada dentro de um
enfoque comportamental, cuja dimenso pode ser a econmica, cognitiva e emocional
[Chauvel (1999)]. tambm notria nas vises de Fornell et al. (1996), Daker et al. (1998) e
Gale (1992), que o papel da satisfao de clientes seja um fator determinante no somente de

146

retornos crescentes, como tambm de lealdade por parte dos clientes atravs da gerao de
valor para os mesmos.
Para Anderson, Fornell e Lehmann (1994), a satisfao do consumidor afetada por trs
antecedentes ou determinantes, a saber: a qualidade percebida, o preo ou valor percebido e as
expectativas. A qualidade percebida refere-se a atual avaliao da performance da empresa, e
tende a influenciar positivamente na satisfao total do cliente em relao ao fornecedor.
Nesses termos, a qualidade percebida passa a ser um construto abstrato que procede, s
vezes, do objetivo e do afetivo. Tal definio passa a ser contrria quela de qualidade
objetiva de um produto, que se pode medir com relao a um certo nmero de caractersticas
observveis, como o nmero de defeitos, a durabilidade ou o preo [Crosby (1979) e Garvin
(1983)].
A qualidade ainda pode ser definida de forma abrangente amplamente na viso de
Zeithaml (1988) como superioridade ou excelncia. Por extenso, a qualidade percebida
vista como o julgamento do consumidor sobre a excelncia ou a superioridade global de um
produto ou de um servio. Essa qualidade percebida parece diferenciar-se, ento, da qualidade
objetiva ou real.
O segundo determinante da satisfao do consumidor o valor percebido ou o preo do
bem ou servio [Anderson, Fornell e Lehmann (1994); Fornell et al. (1996)]. A qualidade em
relao ao preo possui um impacto direto sobre a satisfao do consumidor. Ainda podendo
ser ressaltado o relacionamento existente entre a qualidade da oferta e o seu preo, bem como
os efeitos que confundem tal relao.
J o terceiro determinante da satisfao refere-se as expectativas criadas pelo
consumidor, bem como o conhecimento acumulado sobre a qualidade das ofertas de um dado
fornecedor. Busca-se avaliar se a qualidade atual tende a influenciar a satisfao do
consumidor, assim como, se as experincias passadas tambm so responsveis por essa
influncia, representadas pelas expectativas. Soma-se a tais as previses em relao
capacidade do fornecedor de manter a qualidade no futuro.
Kotler (2000), mostra que os clientes de hoje so mais difceis de serem agradados. Eles
so mais inteligentes, mais conscientes em ralao aos preos praticados, mais exigentes,
perdoam menos e so abordados por mais concorrentes com ofertas similares ou mesmo
melhores.
Logo, a reteno de clientes encontra-se intrinsecamente ligado aos conceitos do
comportamento do consumidor, no que tange a recompra e a atitude positiva em relao aos
produtos ou servios ofertados pelas organizaes, culminando com a forma de
relacionamento empresa-cliente denominada de lealdade.
Spreng, Mackenzie e Olshavsky (1996), tambm enfatizam que os desejos dos
consumidores devem ser includos como um determinante fundamental na satisfao dos
mesmos. Os resultados da satisfao ou insatisfao surgem quando se comparam as
percepes de performances de um produto, tanto com as expectativas, como tambm, com os
desejos dos indivduos. Nesse prisma, a satisfao advm no somente das expectativas e dos
desejos em relao ao bem ou servio, mas tambm, fruto das informaes nas quais tais
expectativas se baseiam.
De acordo com Olivier (1980) os consumidores criam as expectativas em relao a um
determinado bem ou servio antes de sua compra. As expectativas so comparadas ao
desempenho real assim que o consumidor compra ou usa o produto ou servio. Logo, as
expectativas podem ser confirmadas quando um produto tem o desempenho esperado.
Todavia, tais expectativas podem no ser confirmada quando o produto tem um desempenho
abaixo do esperado, ou confirmadas, quando apresenta um desempenho superior ao esperado
[Churchill e Surprenant (1982); Evrard (1993)].

147

Considerando que a qualidade dos servios prestados por diversas organizaes passou a
ser um fator competitivo relevante na conquista de novos mercado, percebe-se a existncia de
uma vasta literatura sobre esse tema, de forma que fornece s empresas interessadas no tema,
importantes benefcios estratgicos, tais como, a segmentao de mercados, retornos sobre
investimentos, reduo de custos e aumento da produtividade [Parasuraman et al. (1985)].
Gummesson (1998, p. 244) colabora com essa discusso mencionando que a qualidade
em servios como uma das contribuies evoluo do paradigma do marketing tradicional.
Isso pode ser bem compreendido caso a qualidade seja considerada como uma resposta
subjetiva do consumidor acerca do desempenho do prestador de servios. Trata-se de um
julgamento de natureza pessoal, cujo conceito extremamente relativo, formado por cada
cliente e, conseqentemente, mais difcil de ser mensurado.
No se podem esquecer ainda das vises de Bateson e Hoffman (2001, p. 363) a respeito
do que venha ser qualidade, isto :
...uma maneira de obter sucesso entre servios concorrentes.
Principalmente quando vrias empresas que fornecem os servios
quase idnticos concorrem em uma rea pequena, como acontece com
os bancos, onde estabelecer a qualidade de servio pode ser a nica
maneira de se diferenciar.
Nessa mesma linha de raciocnio Gronroos (1993) tambm afirma que uma das formas
de administrar a qualidade de um servio prestado consider-lo do ponto de vista do cliente.
Neste caso, os consumidores escolhem os prestadores de servios ao comparar as percepes
que tm do servio percebido com os servios esperados, que chamado de qualidade de
servio percebida.
Eleutrio e Souza (2002), relatam que os programas de qualidade que no levem em
conta o significado de qualidade para que os clientes no obter resultados satisfatrios.
somente quando o prestador de servios compreender como os servios sero avaliados pelos
clientes que ser possvel saber gerenciar essas avaliaes e como influenci-las na direo
desejada.
Zeithaml, Parasuraman e Berry (1990), enfatizam que a chave para assegurar uma boa
qualidade de servios obtida quando as percepes dos clientes excedem as suas
expectativas. Embora tal raciocnio seja vlido, no basta apenas compreender a importncia
de fornecer servios com boa qualidade. necessrio haver um processo contnuo de
monitorao das percepes dos clientes sobre a qualidade do servio, identificando as causas
das discrepncias encontradas e adotar mecanismos adequados para a melhoria dos servios
prestados.
Finalmente, deve ser observado que existe uma gama de teorias que procuram explicar a
satisfao dos consumidores por um bem ou servio, que em sua grande maioria, convergem
para a opinio de que, mesmo com nomenclatura diferentes, tais teorias concordam com o
conceito de que o julgamento acontea por meio de padres pr-determinados (expectativas) e
a comparao de tais expectativas com um desempenho do produto ou servio, sendo que o
desempenho avaliado subjetivamente, pelo consumidor, tal como fora mencionado
anteriormente, com base em suas experincias e cognies.

3. Aspectos Metodolgicos
3.1. Caracterstica da Pesquisa e Composio da Amostra

148

O universo desta pesquisa compreende as empresas de pequeno e mdio porte


localizadas na regio noroeste do Estado do Rio Grande do Sul que tiveram algum tipo de
servio de mdia prestado pela empresa RBS-TV naquela regio geogrfica. A pesquisa
realizada caracteriza-se como um estudo exploratrio, valendo-se de uma amostragem
probabilstica, cuja estratificao se deu em funo do tamanho das cidades avaliadas. Os
municpios pesquisados foram: Santa Rosa, Trs Passos, Trs de Maio, Horizontina, Santo
ngelo e So Luiz Gonzaga, sendo que na cidade de Santa Rosa, encontra-se a sucursal da
Regio Noroeste do estado do Rio Grande do Sul enquanto que as demais cidades possuem
micro-sucursais da RBS-TV.
O dimensionamento do tamanho da amostra, depende de vrios fatores qualitativos que
devem ser levados em considerao, entre eles a importncia da deciso, a natureza da
pesquisa, o nmero de variveis, a natureza da anlise e o tamanho da amostra utilizada em
estudos similares. Neste estudo, dimensionou-se uma amostra utilizando um erro de
estimao de 7% e os valores de p e q igual a 50% e um nvel de confiana de 95%. A
populao em estudo compe-se de 700 empresas das quais, 135 compuseram a amostra.

3.2. O Formulrio de Coleta de Dados


Na segunda fase desta pesquisa, que se refere a elaborao do questionrio, optou-se por
utilizar a escala de Likerti, exigindo dos entrevistados a indicao de um grau de concordncia
com afirmaes relacionadas no questionrio. Para fins de anlise, a cada uma das afirmaes
foi atribudo um escore numrico de 1 a 5. Essa variedade de graus, do ponto de vista
estatstico, apresenta maior confiabilidade para a anlise dos dados, pois as escalas com cinco
opes so mais confiveis que as de somente duas (Checklist). Alm disso, o uso da escala
de Likert permite que se determine a porcentagem de respostas positivas ou negativas, para
uma determinada questo.

3.3. O Mtodo de Anlise dos Dados


Uma vez depurados e validados os dados e as informaes obtidas no campo foram
analisadas, com vistas a solucionar a pesquisa proposta. Aps a aplicao do questionrio,
procedeu-se a extrao das estatsticas univariadas e multivariadas, que permitiram a
sumarizao e a classificao dos dados obtidos,segundo critrios que facilitaram e
permitiram a interpretao dos resultados, de acordo com os objetivos propostos. O processo
de anlise foi dividido em trs etapas, a saber:

Anlise descritiva: onde os dados foram primeiramente sumarizada e depois auferida as


estatsticas descritivas univariadas e bivariadas, visando conhecer melhor a
caracterstica das unidades amostradas;
Anlise dos Fatores (AF): onde os dados obtidos foram analisados de acordo com os
fatores ambientais definidos no escopo do trabalho. Para tanto, Ao aplicar-se a anlise
fatorial precisamos testar se os dados esto suficientemente ligados para se proceder
anlise. Para tal utilizou-se o mtodo de Kaiser-Meyer-Olkin Measure of Sampling
Adequacy (KMO), que mede a adequao dos dados, onde valores iguais ou menores do
que 0,5 indicam que a realizao da anlise fatorial insatisfatria devido a correlao
fraca entre as variveis.

149

Anlise de Cluster: que visa classificar objetos ou casos em grupos relativamente


homogneos, chamados de conglomerados.

3.3.1 Anlise Fatorial (AF)


Segundo Malhotra (2001) a Anlise Fatorial deve seguir alguns passos para sua
realizao:

Formular o problema;
Construir a matriz de correlao;

A Anlise Fatorial (AF) teve incio, no princpio do sculo XX com Karl Pearson e
Charles Spearman, que estudaram as medidas de inteligncia. Essa tcnica no se difundiu
com maior velocidade devido dificuldade em proceder aos clculos, os quais foram
facilitados com o advento do computador. Matematicamente a AF semelhante Anlise de
Regresso Mltipla, pelo fato de cada varivel ser expressa como uma combinao linear de
fatores subjacentes (Malhotra, 2001). Em pesquisas de marketing, por exemplo, pode haver
uma srie de variveis, a maioria correlacionadas as quais necessitam serem reduzidas de tal
forma que:

determinar os autovalores e autovetores;


rotar os fatores;
interpretar os fatores;
calcular os escores fatoriais e selecionar as variveis substitutas;
determinar o ajuste do modelo.

Embora existam diversos mtodos para se encontrar os autovalores e autovetores, a


Anlise de Componentes Principais (ACP) a que melhor desempenha este papel, sem que o
pesquisador mantenha um profundo conhecimento, pois dessa forma sempre se tem a garantia
de se obter fatores nicos e no-correlacionados, sendo este, um passo prvio para se
determinar os planos fatoriais [Johnson (1995)].
Cada componente principal explica uma proporo da variabilidade total e essa
proporo pode ser calculada, mediante o quociente entre o valor original do autovalor e o
trao da matriz de correlao R. Esse quociente segundo a viso de Pla (1986), denomina-se
proporo de variabilidade, explicada pela k-sima componente e calcula-se pela relao a
seguir:

(k)
trR

= Variao explicada

(1)

A definio do nmero de componentes a serem utilizados feita por meio de dois


critrios. O primeiro, denominado de mtodo grfico, o qual, representa graficamente a
porcentagem de variao explicada pela componente nas ordenadas e os autovalores em
ordem decrescente nas abscissas. Esse critrio, que considera as componentes anteriores at o
ponto de inflexo da curva, foi sugerido por Cattel (1996).
Na etapa de anlise dos resultados a partir da tcnica de Anlise Fatorial, deve-se levar
em conta a complexidade e a extenso desses resultados, pois se entendidos adequadamente

150

podem levar a uma interpretao satisfatria. Seguem abaixo as estatsticas-chave associadas


AF, as quais so explicadas no decorrer do trabalho:

Teste de esfericidade de Bartlett;


Matriz de correlao;
Autovalor;
Cargas dos fatores;
Escores fatoriais;
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin (KMO);
Percentagem de varincia;
Resduos;
Mtodo grfico.

Ao aplicar-se a anlise fatorial precisamos testar se os dados esto suficientemente


ligados para se proceder anlise. Para tal utilizou-se o mtodo de Kaiser-Meyer-Olkin
Measure of Sampling Adequacy (KMO), que mede a adequao dos dados, onde valores
iguais ou menores do que 0,5 indicam que a realizao da anlise fatorial insatisfatria
devido a correlao fraca entre as variveis.
KMO=

r12 + r22 + r32 + ... + rn2


( r + r + ... + rn2 ) + ( r112 + r122 + ... + rkn2 )
2
1

2
2

(2)

Onde:
r1, r2,...rn = correlao das variveis
r11, r12,...rkn = correlaes parciais
Os valores crticos para a interpretao do teste KMO so:

Em torno de 0,90: adequao tima


Em torno de 0,80: adequao boa
Em torno de 0,70: adequao razovel
Em torno de 0,60: adequao medocre
Em torno de 0,50 ou menos: adequao imprpria.

Verificou-se ainda as relaes de interdependncia entre as variveis, fornecendo


subsdios para empresa analisar o comportamento dos clientes em relao satisfao dos
servios, e possibilitando um melhor entendimento sobre os critrios que os clientes utilizam
para escolher o tipo de mdia e o horrio de veiculao das propagandas que trazem mais
divulgao e retorno financeiro.
O KMO um teste que examina o ajuste de dados, tomando todas as variveis
simultaneamente e prov uma informao sinttica sobre os mesmos. Um outro teste que
precede a Anlise Fatorial com vistas a verificao de suas premissas, o Bartlett Test of
Sphericity (BTS), que testa a hiptese de que a matriz de correlao uma matriz identidade
(diagonal igual a 1 e todas as outras medidas igual a zero) ou seja, que no h correlao entre
as variveis [Pereira (2001)].

3.3.2 Anlise de Cluster

151

A anlise de conglomerados, tambm chamada de anlise de cluster uma tcnica


usada para classificar objetos ou casos em grupos relativamente homogneos chamados
conglomerados. Os objetos, em cada conglomerado, tendem a ser semelhante entre si, mas
diferentes de objetos em outros conglomerados no havendo qualquer informao, a priori,
sobre a composio do grupo, ou conglomerado, para qualquer de seus objetos, sendo
sugeridos pelos dados.
Conforme a CNI (Confederao Nacional da Indstria do Brasil, 1988), cluster significa
agrupamento, ou seja, visa agrupar variveis com caractersticas comuns, sem perder
informaes de todo o conjunto em estudo. A anlise de cluster amplamente utilizada nas
diversas reas do conhecimento, por se tratar de uma medida contnua e que possibilita a
interpretao individual de cada grupo e a relao que este grupo possui com os demais.
Os processos de aglomerao podem se hierrquicos ou no-hierrquicos. Na
aglomerao hierrquica estabelecida uma ordem, ou estrutura em forma de rvore, que
produz seqncia de parties em classes cada vez mais vastas. O que no ocorre na
aglomerao no-hierrquica, na qual se produz, diretamente, uma partio em um nmero
fixo de classes.
No entanto, o mtodo mais comum o da classificao hierrquica, onde os objetos so
agrupados semelhana de uma classificao taxonmica e representada em um grfico com
uma estrutura em rvore, denominada dendograma. Para proceder esta classificao, faz-se
necessrio definir matematicamente o que venha ser caracterizado proximidade, ou seja,
distncia entre dois objetos, definindo-se a partir da o critrio de agrupamento de duas
classes. Entre as medidas mais usuais, para estabelecer o conceito de distncia entre dois
objetos m e n baseada nos valores de i variveis pode-se destacar as seguintes formas de
mensurao:
1) Coeficiente Correlao Linear de Pearson;
2) Distncia Euclidiana;
3) Distncia de Manhattan;
4) Distncia de Mahalanobis;
5) Distncia de Chebychev.
Conforme salienta Pereira (2001), a anlise de cluster pode ser sintetizada baseando-se
nos seguintes procedimentos:
a) Clculo das distncias euclidianas entre os objetos estudados no espao
multiplano de todas as variveis consideradas. Logo, a distncia euclidiana pode
ser calculada usando-se a expresso: D = ( x2 x1 ) 2 + ( y 2 y1 ) 2 , onde os pares
(x1,y1) e (x2, y2) so as coordenadas de pontos quaisquer no plano;
b) Seqncia de agrupamento por proximidade geomtrica;
c) Reconhecimento dos passos de agrupamento para identificao coerente de
grupos dentro do universo de objetos estudados;
d) Realizar as anlises atravs de um pacote estatstico.

4. Resultados Empricos
Antes de se verificar os resultados, segue abaixo o questionrio utilizado, onde cada
questo encontra-se resumida em uma palavra, para melhor interpretao das variveis em
estudo.
a) Questo 1: A RBSTV Santa Rosa como opo de mdia opo;

152

b) Questo 2: Quanto ao retorno que consegue investindo em publicidade na RBS-TV Santa


Rosa retorno;
c) Questo 3: Quanto as alternativas de anncios anncio;
d) Questo 4: O anncio proposto pela agncia atendeu as suas necessidades
necessidade;
e) Questo 5: Os horrios de mdia oferecidos contemplaram o seu pblico alvo
horrio;
f) Questo 6: Quanto ao atendimento por parte do agente atendimento;
g) Questo 7: Quando se dirige empresa recebe resposta de todas as solicitaes,
reclamaes e/ou sugestes solicitaes;
h) Questo 8: Quando agendo um horrio de reunio, o agente est disponvel para a reunio
num horrio que me era conveniente disponibilidade;
i) Questo 9: Presteza do agente quando chega na reunio presteza;
j) Questo 10: Pontualidade do horrio de incio da reunio pontualidade;
k) Questo 11: Quanto ao atendimento ps-venda ps-venda;
l) Questo 12: Tabela de preos da RBS TV Santa Rosa preo;
m) Questo 13 Condio de pagamento condio;
n) Questo 14: Quanto a satisfao em continuar, ou voltar a anunciar, na RBS TV Santa
Rosa continuar.
Procedeu-se, inicialmente, com a determinao das estatsticas descritivas das variveis
estudadas, antes da aplicao da tcnica de anlise multivariada, conforme Tabela 1.

TABELA 1 Estatsticas descritivas das variveis analisadas por meio de uma escala de
Likert.
Variveis
N
Mdia
Desvio
Valor
Valor
Padro
Mnimo
Mximo
Opo
155
4,000000
0,693195
2
5
Retorno
155
3,696774
0,824733
1
5
Anncio
155
3,774194
0,810230
1
5
Necessidade
155
3.812903
0,745437
2
5
Horrio
155
3,890323
0,743524
1
5
Atendimento
155
4,425806
0,654142
2
5
Solicitao
155
4,051613
0,700589
1
5
Disponibilidade
155
4,167742
0,611782
1
5
Presteza
155
4,238710
0,510715
3
5
Pontualidade
155
4,193548
0,645632
1
5
Ps-Venda
155
3,832258
0,903236
1
5
Preo
155
2,980645
1,053571
1
5
Condio
155
3,722581
0,793934
1
5
Continuar
155
3,961290
0,710623
1
5
Com relao a Tabela 1, pode-se verificar que as mdias das variveis analisadas
encontram-se em torno de quatro, ou seja, havendo um predomnio do nvel satisfatrio,
ficando apenas a varivel preo num nvel insatisfatrio.
Pode-se verificar, atravs do coeficiente de variao de Pearson, que a mdia dessas
variveis significativa estatisticamente, em torno de 22%, com exceo da varivel preo,
onde o coeficiente de variao est em torno de 33%, evidenciando que o preo a varivel
que revela maior disperso dentre a opinio dos entrevistados. A mdia de respostas da

153

varivel preo, foi igual 2,98, o que mostra que os valores representados pela opo muito
insatisfeito e insatisfeito, influenciaram a mdia para baixo.
Por outro lado o desvio-padro das variveis considerado baixo, no ocorrendo uma
variao elevada entre as respostas obtidas.
Como anlise preliminar, a AF utilizar o procedimento de anlise de cluster, pois, por
meio desta, ser possvel identificar quais so as variveis que pertencem a um mesmo grupo,
isto , possibilitando identificar quais variveis o cliente identifica como tendo as mesmas
caractersticas para ele, colaborando dessa forma, com a empresa em possveis formulao de
estratgias de vendas dos seus servios.
Na Figura 1, mostra-se o comportamento do dendograma com todas as variveis, no
qual pode-se identificar a formao de trs clusters, obtidos por meio de um corte transversal
feito na maior distncia entre os clusters, ou a critrio do pesquisador. O primeiro cluster
formado pela varivel preo, o segundo pelas variveis solic, pontu, prest, dispon e atend, e o
ltimo cluster formado pelas variveis pos-ven, condi, necess, anunc, hora, retor, cont e op.
22
20
18
16
14
12
10
8
6
4
2
PREO

PONTU
SOLIC

DISPON
PREST

POS-VEM
ATEND

NECESS
CONDI

HORA
ANUNC

CONT
RETOR

OP

FIGURA 1 Dendograma envolvendo todas as variveis da 2 parte do questionrio.


Atravs da anlise do dendograma, optou-se em retirar algumas variveis que possuem
a mesma representao dentro do cluster. No primeiro cluster, como aparece somente a
varivel preo, no houve alterao. O segundo cluster est relacionado com o atendimento
por parte do agente, portanto, retirou-se a varivel pont, e no terceiro cluster retirou-se as
variveis anunc e op, tendo-se um novo dendograma, no qual pode-se verificar a formao
de trs novos clusters, conforme Figura 2.

154

22
20
18
16
14
12
10
8
6
4

PREO

CONT

SOLIC

PREST

DISPON

ATEND

POS-VEM

CONDI

HORA

NECESS

RETOR

FIGURA 2 Dendograma aps a retirada de variveis que apresentam o mesmo grau de


relacionamento.
Permanecendo novamente a varivel preo no primeiro cluster, retirou-se do segundo
e do terceiro cluster respectivamente, as variveis dispon e retor, formando um novo
dendograma, no qual verifica-se a formao de trs novos clusters, conforme Figura 3.
22
20

Linkage Distance

18
16
14
12
10
8
6

PREO

CONT

SOLIC

PREST

ATEND

POS-VEM

CONDI

HORA

NECESS

FIGURA 3 Dendograma aps a retirada de variveis que apresentam o mesmo grau de


relacionamento.
Uma vez que dentro do segundo e do terceiro cluster ainda havia variveis com mesmo
perfil, retirou-se, novamente, as variveis atend e hora, respectivamente, formando-se um
novo dendograma, o qual segue apresentado na Figura 4.

155

22

20

Linkage Distance

18

16

14

12

10

6
PREO

POS-VEM

CONT

PREST

SOLIC

CONDI

NECESS

FIGURA 4 Dendograma aps a retirada de variveis que apresentam o mesmo grau de


relacionamento.
Por meio do dendograma, pode-se verificar a formao de dois clusters, os quais
possuem as variveis de maior relevncia dentro do conjunto original das variveis
pesquisadas .
Identificadas as variveis como pertencentes ao mesmo cluster e permanecendo na
anlise as variveis consideradas mais relevantes sob a tica da empresa e do pesquisador,
procedeu-se a anlise fatorial dessas variveis, visando comparar como se comporta o
conjunto de dados quando se utiliza todo o conjunto de dados, bem como o conjunto de dados
que fora reduzido atravs da tcnica de anlise de cluster.
Caso o resultado do conjunto de dados reduzidos seja satisfatrio, a empresa poder
utilizar essas sete variveis para pesquisas posteriores, as quais podero ser feitas at mesmo,
via telefone, reduzindo, com isso, o tempo de execuo das pesquisas, os custos e serviro
ainda para monitorar os servios ps-venda da empresa.
Para se proceder a AF, inicialmente, mediu-se a adequao das variveis envolvidas para
verificar a possibilidade da execuo da anlise, por meio do teste KMO, o qual forneceu um
valor de 0,843 e o Bartlett Test com valor de 860,836 com 91 graus de liberdade e nvel de
significncia de p = 0,000. Analisando-se estes valores demonstra-se que a AF pode ser
conduzida, obtendo um grau de adequao prximo de timo, conforme a classificao do
KMO.
Aproximadamente 66% da variabilidade dos dados explicado por quatro fatores
principais, isso significa que de quatorze variveis originais com 155 observaes, passou-se
a utilizar quatro fatores, que representam o conjunto original, com isso, houve uma reduo de
dimensionalidade com perda de explicao de 34%, tal como pode ser visto na Tabela 2.

156

TABELA 2: Autovalores e Percentual de Varincia Explicada


Varincia
Autovalores
Fatores
Autovalores
explicada (%)
acumulados
1
5,080402
36,28859
5,08040
2
2,014212
14,38723
7,09461
3
1,124493
8,03209
8,21911
4
1,012130
7,22950
9,23124
5
0,842840
6,02028
10,07408
6
0,689221
4,92301
10,76330
7
0,654506
4,67505
11,41780
8
0,518466
3,70333
11,93627
9
0,454574
3,24696
12,39084
10
0,419413
2,99581
12,81026
11
0,377150
2,69393
13,18741
12
0,333499
2,38214
13.,2091
13
0,286643
2,04745
13,80755
14
0,192451
1,37465
14,00000

Var. Explicada
acumulada (%)
36,28859
50,6758
58,7079
65,9374
71,9577
76,8807
81,5557
85,2591
88,5060
91,5018
94,1958
96,5779
98,6254
100,0000

De acordo com a expresso denotada por (1), o percentual de varincia explicada pelo
primeiro autovalor (5,080402 / 14) 100 = 36,28859% o autovalor foi dividido por 14, pois
este nmero corresponde ao trao da matriz de correlao, onde a diagonal principal
formada por valores iguais a 1. Aps a extrao dos autovalores e percentual da varincia
explicada, necessrio decidir-se pelo nmero de fatores a serem retirados para anlise. Para
isso, utiliza-se o mtodo grfico sugerido por Cattel (1996), tal como fora mencionado
anteriormente.
Atravs do exame do grfico dos autovalores disposto na figura 1, observou-se que uma
queda menos acentuada que ocorreu entre o quarto e o quinto fator e analisando-se os
autovalores superiores a 1, observa-se que pode-se considerar at o quarto fator.
6,0
5,5
5,0
4,5
4,0
Valor

3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
1

10

11

12

13

14

Nmero de autovalores

Figura 5: Nmero de Autovalores e seus Respectivos Valores.


Visando encontrar os planos fatoriais realizou-se uma rotao varimax, onde as cargas
fatoriais mais elevadas so as responsveis pelas denominaes dos fatores e so
estatisticamente significativas, conforme a Tabela 3.

157

TABELA 3 - Cargas fatoriais na composio dos fatores aps rotao Varimax.


Op
Retor
Annc
Necess
Hora
Atend
Solic
Dispon
Prest
Pontu
Pos-Ven
Pre
Condi
Cont

Fator 1
0,221531
0,908799
0,069512
0,169031
0,151071
0,059963
0,051392
0,061755
0,032148
-0,003214
0,087342
0,098312
0,096515
0,227100

Fator 2
0,076034
0,027101
0,068193
0,043602
0,104508
0,174678
0,181868
0,338567
0,899164
0,500990
0,044603
0,047109
0,020086
0,124524

Fator 3
0,076784
0,176180
0,257641
0,921555
0,120350
0,054225
0,009308
0,002407
0,048690
0,024570
0,070342
0,104243
0,074624
0,131118

Fator 4
0,088129
0,101774
0,139739
0,075349
0,085737
0,107361
0,101522
0,023228
0,021091
0,027252
0,059976
0,268289
0,927210
0,196862

Analisando-se a Tabela 3, pode-se avaliar as quatro componentes principais:


rentabilidade, presteza, necessidade e condies, nas quais sero traados os planos fatoriais,
para uma melhor interpretao. Vale destacar que a variabilidade do sistema no alterada
quando se realiza uma rotao deste tipo, apenas as coordenas dos eixos so rotacionadas e,
desta forma, a inrcia do sistema fica inalterada. Sendo assim, as anlises realizadas,
anteriormente, continuam valendo, mas, agora, com uma nova associao entre variveis
originais e os fatores.
Uma vez que fora selecionado o nmero de fatores a ser trabalhado a anlise, possvel,
ento, representar graficamente tais fatores atravs das Figuras 6, 7 e 8.
A seguir, traam-se os planos fatoriais entre os fatores. Na Figura 6 encontra-se o fator
1 versus o fator 2.
1,0
PREST

0,9
0,8
0,7
0,6
Fator 2

PONTU

0,5
0,4

DISPON

0,3
SOLIC
ATEND

0,2

CONT
HORA
OP
ANUNC
PREONECESS
POS-VEM
CONDI

0,1

RETOR

0,0
-0,1
-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Fator 1

Figura 6: Representao do Fator 1 versus o Fator 2


Atravs dos planos fatoriais, verifica-se o comportamento das variveis mais
representativas. No eixo das abscissas, verifica-se a varivel retor, a qual foi perguntado qual
o retorno que se consegue ao se investir em publicidade, na RBS-TV, obtendo-se mdia de
resposta 3,696774, e um valor de fator loading de 0,908799. O eixo das ordenadas

158

representado pela varivel prest qual foi perguntado sobre a presteza do agente quando
cheguei na reunio, com mdia de resposta igual a 4,238710, e um fator loading de
0,899164. Sendo essas variveis de maior evidncia na anlise.
As variveis, que esto dentro da elipse, so as que possuem pouca expresso na
composio do fator, ou seja, no so significativas ao nvel de 7%. Logo, o cliente, ao
veicular sua empresa, leva em considerao o retorno que ir obter com a mdia, alm da e a
presteza do agente no momento da negociao.
1,0

NECESS

0,8

Fator 3

0,6

0,4
ANUNC
RETOR

0,2

PREOHORA
CONDI
POS-VEM
ATEND
PREST
PONTUSOLIC
DISPON

CONT
OP

0,0

-0,2
-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Fator 1

Figura 7: Representao do Fator 1 versus o Fator 3


No plano fatorial disposto na Figura 7 verifica-se que, no eixo das abscissas, permanece
a varivel retor que a varivel mais representativa, e no eixo das ordenadas a necess,
obtendo-se mdia de resposta de 3,812903 e factor loading igual a 0,921555. As outras
variveis encontram-se bastante prximas da origem e, portanto, no so significativas.
Analisando-se as Figuras 7 e 8, verifica-se que a varivel retorno a mais
representativa, ou seja, o cliente ao veicular um anncio na RBS-TV, leva em considerao
principalmente o retorno que ter com a mdia.
1,0

CONDI

0,8

Fator 4

0,6

0,4
PREO
CONT

0,2

ANUNC
ATEND
SOLIC
HORA OP
POS-VEMNECESS
PONTU
DISPON
PREST

RETOR

0,0

-0,2
-0,2

0,0

0,2

0,4
Fator 1

FIGURA 8 Representao do fator 1 versus o fator 4

0,6

0,8

1,0

159

Neste plano fatorial a varivel condi representa a pergunta sobre as condies de


pagamento oferecida pela empresa sendo a mais representativa no eixo das ordenadas, e
possuindo uma media de resposta 3.722581 e factor loading de 0,927210.
Finalmente, fcil ressaltar ainda que a confiabilidade interna dos primeiros fatores que
foram extrados satisfatria, a qual corroborada atravs da estatstica do Alfa de Cronbach
que forneceu um valor de 0,8564. Por esse motivo, pode-se afirmar que os primeiros fatores
esto coerentes com as variveis que o compem.

5. Consideraes Finais
As ferramentas estatsticas, em nvel de anlise exploratria de dados, sempre se
mostraram importantes na tomada de decises. Neste estudo pde-se verificar como os
clientes da RBS TV conseguem ver a empresa e os resultados que eles esperam, aps o
anuncio de sua empresa neste veculo de comunicao. Aps a realizao da pesquisa de
campo e as anlises necessrias, chegou-se aos seguintes resultados finais:
Com os dados obtidos do questionrio, procedeu-se, primeiramente, ao uso da
estatstica descritiva, a qual forneceu, por meio da mdia, o grau de satisfao por parte dos
clientes, predominando-se o grau satisfeito (4 na escala de Likert) na maioria das questes,
com exceo da varivel preo, que forneceu grau insatisfeito (2 na escala de likert).
Porm, existe uma quantidade significativa de clientes que esto indecisos. Baseando-se
no que fora mencionado anteriormente, cabe RBS-TV verificar o porqu desse quadro e
propor alternativas diferenciadas estes clientes para que eles venham se tornar clientes
com nveis de aceitao satisfatrio, perante aos servios prestados.
Por meio dos mtodos estatsticos multivariados, procedeu-se extrao das
componentes principais a qual proporcionou uma reduo no nmero de variveis originais e
pode-se afirmar que os clientes da RBS TV desse municpio escolhem esse veculo de
comunicao pela seguinte ordem de importncia:
retorno que conseguem com a mdia;
presteza do agente no momento da venda da mdia;
condies de pagamento;
alternativas de anncio.
Nesse prisma, os clientes da RBS-TV, primam pelo retorno que conseguem investindo
em publicidade na RBS-TV, pela presteza do agente no momento da venda da publicidade,
pelas condies de pagamento e pelas alternativas de anncio para a propaganda de sua
empresa. Em suma a RBS-TV deve manter maior ateno quanto ao retorno que o anunciante
tem com a mdia e propor mais alternativas de anncio.
Sugere-se ento, que a empresa mantenha a poltica que vem sendo adotada, mas
tentando manter os clientes j cadastrados que anunciam neste veculo de comunicao e que
desenvolvam uma campanha para a obteno de novos clientes para a emissora.
Antecedente tcnica de AF, procedeu-se com uma anlise de cluster para identificar as
variveis que pertencem ao mesmo cluster, possibilitando, com isso, verificar quais variveis
os clientes identificam com o mesmo efeito.
Como anlise final, aps a retirada de variveis com o mesmo significado dentro de
cada cluster, obteve-se a formao de dois clusters, onde o primeiro encontra-se sozinho a
varivel preo, e no segundo as variveis ps-vend, cont, prest, solic, cond e
necess.
Por fim, a tcnica de anlise fatorial se mostrou eficiente na identificao das variveis
que apresentavam uma maior contribuio para a formao do fator, sendo desta maneira

160

possvel identificar as variveis que devam receber uma maior ateno pela agncia de
telecomunicao e que tambm possibilitou conhecer o que realmente os empresrios que
utilizam os servios da RBS-TV, desejam no momento de contratar os servios da emissora

6. Bibliografia
ANDERSON, Eugene W., FORNELL, Claes, LEHMANN, Donald R. Customer satisfaction,
market share, and profitability: findings from Sweden. Journal of Marketing, v. 58, July 1994.
BERRY, L. Servios da Satisfao mxima Guia prtico de ao. Rio de Janeiro: Campus,
1996.
CHURCHILL, Gilbert A., SURPRENANT, Carol. An investigation into the determinants of
customer satisfaction. Journal of Marketing Research, v. 19, Nov. 1982.
EVRARD, Y. La satisfaction des consommateurs: tat des recherches. Anais do 17o.
ENANPAD. p. 59-86, 1993.
FORNELL, Claes, JOHNSON, Michael D., ANDERSON, Eugene W., CHA, Jeasung,
BRYANT, Barbara E. The American customer satisfaction index: nature, purpose, and
findings. Journal of Marketing, v. 60, Oct. 1996.
JOHNSON, Michael D. Comparability in customer satisfaction surveys: products, services,
and government agencies. Seminar on new directions in statistical methodology, Washington,
DC. Working Paper 23, v. 1, p. 99-120, 1995.
JOHNSON, Michael D. Comparability in customer satisfaction surveys: products, services,
and government agencies. Seminar on new directions in statistical methodology, Washington,
DC. Working Paper 23, v. 1, p. 99-120, 1995.
KOTLER, P. Administrao de Marketing, anlise, planejamento, implementao e controle.
4 ed., So Paulo: Atlas, 1994.
MALHOTRA, N.K. Marketing Research: an applied orientation. New Jersey : Prentice-Hall,
1996.
OLIVER, Richard L. A cognitive model of the antecedents and consequences of satisfaction
decisions. Journal of Marketing Research, v. 17, p. 460-469, Nov. 1980.
PARASURAMAN, A., VALARIE, A. Z. e LEONARD L. B. A conceptual model of service
quality and its implications for future research. Journal of Marketing, vol. 49, Fall, pp. 41-50.
1985.
PEREIRA, Julio Csar R. Anlise de Dados Qualitativos Estratgias Mercadolgicas para as
Cincias da Sade, Humanas e Sociais. 3 ed. So Paulo: Editora da Universidade de So
Paulo, 2001.
PLA, Laura. Anlisis Multivariado: Metodo de Componentes Principales. Departamento de
Produccin Vegetal. Universidad Nacional Experimental Francisco de Miranda. Coro, Falcn,
Venezuela, 1986.
SPRENG, Richard A., MACKENZIE, Scott B., OLSHAVSKY, Richard W. A reexamination
of the determinants of consumer satisfaction. Journal of Marketing, v. 60, July 1996.
ZEITHAML, Valarie A. Consumer perceptions of price, quality and value: a means-end
model and synthesis of evidence. Journal of Marketing, vol. 52, July, pp. 2-22. 1988.

161

ARTIGO 2
APLICAO DA ANLISE MULTIVARIADA EM DADOS DE RENDIMENTOS DE
ENSINO

Fernando Monteiro Silva


Adriano Mendona Souza
Resumo
O objetivo desta pesquisa determinar o perfil dos alunos e dos Colgios Militares,
apresentam-se trs anlises aplicando-se tcnicas estatsticas multivariadas em dados de
rendimentos de ensino. Realiza-se, primeiramente, uma anlise descritiva dos dados de quatro
Colgios Militares, fazendo-se um cruzamento de variveis de rendimento escolar. A seguir,
parte-se para a anlise multivariada de alguns indicadores de ensino, utilizando-se anlise de
cluster, anlise de componentes principais, anlise fatorial e anlise discriminante. Na posse
de uma enorme quantidade de informaes a questo que surge naturalmente como
interpret-las e, obedecendo a natureza multivariada, como extrair informao relevante. Um
desafio enfrentado hoje pelo ensino a previso da trajetria dos alunos. Quais precisaro de
assistncia adicional para aprovao? Como aumentar a aprovao sem diminuir o contedo
programtico? Quais alunos tm maior probabilidade de ingressar em agremiaes e
atividades extracurriculares? O principal motivo que tem levado os administradores a investir
na busca de conhecimento tem sido a obteno de uma melhor viso sobre a extenso da base
de dados e a revelao de relaes implcitas de padres entre os dados que nem sempre so
visveis atravs da simples observao.

Palavras-chave: Ensino, Militar, Multivariada, Minerao de dados


1. Introduo
A falta de uma ferramenta para demonstrao do desempenho comparativo entre
diferentes escolas e a necessidade de uma melhor quantificao do evento avaliativo, que
normalizam e conferem um carter objetivo ao fator desempenho escolar para a tomada de
deciso dos administradores do ensino, o que determina a elaborao deste estudo.
Esta pesquisa constitui-se de um conjunto de tcnicas multivariadas aplicadas em
dados de quatro Colgios Militares que so: Colgio Militar do Rio de Janeiro (CMRJ),
Colgio Militar de Santa Maria (CMSM), Colgio Militar de Curitiba (CMC) e Colgio
Militar de Belo Horizonte (CMBH).
Estes Colgios utilizam o Sistema de Gesto Escolar (SGE), programa de computador
desenvolvido pelo Departamento de Ensino e Pesquisa, o qual objetiva atender as
necessidades da rea de ensino e militar. As bases de dados (Oracle e PostgreSQL) possuem a
mesma estrutura (esquema), o que facilitou a modelagem dos projetos definidos neste
trabalho.
Utilizam-se dados da rea de ensino como graus, rendimentos, mdias finais e dados
de cadastro.
Assim, busca-se aumentar a competncia e a criatividade nas instituies pblicas,
visando organizao e gesto de sistemas de qualidade, atravs do uso de metodologia
eficaz para mostrar o desempenho comparativo entre as escolas e entre os prprios alunos.

162

2. A qualidade no ensino militar


Um desafio enfrentado hoje pelo ensino a previso da trajetria dos alunos. Quais
precisaro de assistncia adicional para aprovao? Como aumentar a aprovao sem diminuir
o contedo programtico? Quais alunos tm maior probabilidade de ingressar em agremiaes
e atividades extracurriculares?
Melhorar a gesto do ensino significa qualificar o seu produto. necessrio mensurar
estatisticamente as mltiplas variveis que representam os fatores de qualidade de ensino e
represent-las numa dimenso compreensvel para o administrador.
Nota-se claramente a excelncia no controle de informaes nos processos
administrativos das unidades militares, mais ainda, nas instituies educacionais, onde o
interesse a preparao e a assistncia dos futuros cidados.
Alm deste notado interesse, existe uma variedade de minuciosos processos que,
juntos, mantm a excelncia no ensino nacional. Processos esses controlados com rigor, como
o Processo de Seleo de Professores, Processo de Elaborao de Provas, Processo EnsinoAprendizagem, Processo de Controle da Disciplina, Processo de Aquisio de Materiais,
todos monitorados por quadros e mapas sumarizados que mostram as principais informaes
para auxlio na tomada de decises.

3. Anlise multivariada e explorao de dados


Segundo Ferraudo (2005), atravs da tecnologia dos computadores, a quantidade de
informao que se pode tratar e armazenar muito grande, complexa e variada. Na posse de
uma enorme quantidade de informaes, a questo que surge naturalmente como interpretlas e, obedecendo natureza multivariada, como extrair informao relevante.
As ferramentas de explorao de dados combinam funes de estatstica, cincias da
computao e recursos de inteligncia artificial. A escolha da combinao de tcnicas, para
serem aplicadas numa particular situao, depende da natureza das tarefas de pesquisa e da
natureza dos dados avaliados. Classificao, estimao, predio, agrupamento por afinidade,
clusterizao e descrio so algumas das tarefas que caracterizam uma explorao de dados.
Segundo Louzada Neto (2000), data mining parece no ser novo para muitos estatsticos e
econometristas, e tem sido utilizado para descrever o processo de pesquisa de conjunto de
dados, na esperana de identificar comportamentos ou caractersticas comuns.
Com o objetivo de conhecer o comportamento das variveis, desenvolve-se um estudo de
carter descritivo, seguido da aplicao de anlises multivariadas.

4. Anlise descritiva
Para traar o perfil dos alunos e dos Colgios em estudo, inicialmente aplica-se uma anlise
descritiva, na qual a populao em estudo composta por 3360 alunos dos quatro Colgios
Militares. Nesta anlise, procura-se relacionar o rendimento com a origem do aluno, onde o
rendimento representado pela varivel Mdia Geral da Srie (MGS).
A Figura 1, representando todos os Colgios Militares, apresenta uma concentrao maior de
alunos concursados com rendimento bom e muito bom, enquanto os alunos amparados
concentram-se no rendimento bom. Ainda se nota que o rendimento abaixo da mdia cinco,
ou seja, com meno insuficiente, encontra-se apenas nos alunos amparados.

163

1200

1000

800

600

400

200

0
B

MB

Amparado

MB

Concursado

Meno

Figura 1 Grfico de barras das origens traadas em relao ao rendimento


Nota-se uma baixa proporo de alunos com meno Insuficiente (I) em relao s
menes Muito Bom (MB) e Bom (B). Da mesma forma, o CMSM, CMC e CMBH
apresentam comportamento semelhante ao modelo. Contudo, na Figura 2, que representa o
CMRJ, nota-se uma maior proporo de alunos com meno insuficiente na classe dos
amparados. Isso comprova um maior nmero de alunos com rendimento baixo nos
amparados, principalmente no CMRJ.
450

400

350

300

250

200

150

100

50

0
B

MB

Amparado

MB

Concursado

Meno

Figura 2 Grfico de barras das origens do CMRJ traados em relao ao rendimento.


Dessa forma, prossegue-se o estudo com a identificao da relao entre outras variveis,
como o comportamento dos alunos e seu rendimento nas disciplinas.

4. Anlise multivariada
Para esta anlise, utilizam-se os dados de comportamento do CMSM e CMC,
armazenados no SGE, porque apenas estes utilizam o mdulo de controle de comportamento.
Aqui, procura-se identificar a relao entre o grau de comportamento e o rendimento escolar,
considerando-se as disciplinas da 3 srie do Ensino Mdio.
De acordo com a matriz de correlao, apresentada na Tabela 1, que mostra o interrelacionamento das variveis, verifica-se uma baixa correlao das disciplinas com o grau de
comportamento.

164

Variveis GrauComp Bio EF


Fis
Geo
GrauComp 1,000
Bio
0,146
1,000
EF
0,221
0,137 1,000
Fis
0,231
0,671 0,255 1,000
Geo
0,170
0,608 0,236 0,667 1,000
Hist
0,158
0,420 0,295 0,569 0,623
LEM
0,128
0,541 0,093 0,566 0,540
Lit
0,214
0,621 0,163 0,653 0,694
Port
0,217
0,759 0,108 0,686 0,594
Mat
0,273
0,692 0,179 0,742 0,558
Qui
0,249
0,682 0,211 0,788 0,641
Tabela 1 Matriz de correlao entre as variveis

Hist

LEM Lit

1,000
0,528
0,702
0,415
0,415
0,544

1,000
0,615
0,570
0,515
0,542

Port

Mat

Qui

1,000
0,685 1,000
0,542 0,706 1,000
0,611 0,658 0,773 1,000

A nica disciplina que no apresentou alta correlao com as demais foi Educao
Fsica (EF). Nas demais disciplinas, existe uma alta correlao entre as variveis, o que
comprova a afirmao de que um aluno que apresenta um bom desempenho em uma
disciplina tambm apresenta nas outras, mas no significa que ele tenha um bom
comportamento ou bom rendimento em Educao Fsica.
A Figura 3 mostra o comportamento do dendograma com todas as variveis, na qual
pode-se identificar a formao de dois clusters, os quais possuem as variveis de maior
relevncia dentro do conjunto.
Diagrama de rvore das Variveis
Mtodo de Ward
Distncias Euclidianas
60

Distancias da ligao

50

40

30

20

GrauComp

EF

Bio

Port

Lit

Fis

Qui

Geo

LEM

Mat

Hist

10

Figura 3 Dendograma envolvendo as variveis.


O primeiro cluster formado pelas variveis Grau de Comportamento (GrauComp) e
Educao Fsica (EF), o segundo, pelas demais disciplinas. Identifica-se um agrupamento que
representa os atributos da rea psicomotora/afetiva e outro formado pelas reas de
cincias/caognitivas, que exigem estudo, escrita e leitura.
Procede-se com a anlise de componentes principais para identificar as variveis mais
importantes em cada fator. O percentual de varincia explicada pelos dois primeiros
autovalores de 65,617%, que representa a variabilidade total do sistema. Parte-se, ento,
para a identificao do nmero de fatores a serem definidos para a anlise. O critrio da
escolha do autovalor maior que um corroboram para a indicao do mtodo em que devem ser

165

usadas apenas as duas primeiras componentes para uma avaliao das variveis. Utilizaram-se
os autovalores, estimaram-se os autovetores para escrever a combinao linear que dar
origem aos fatores.
Depois de definidos os fatores de estudo, representam-se graficamente, na Figura 12,
as variveis no plano fatorial para comprovar os agrupamentos formados.
0,9
EF
0,8
0,7

GrauComp

0,6

Fator 2

0,5
0,4
Hist
0,3
Fis
Geo Qui
Lit
Mat

0,2
0,1

-0,1
0,0

Port
Bio

LEM

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Fator 1

Figura 4 Plano Fatorial Fator 1 x Fator 2.


Nota-se que os agrupamentos so semelhantes aos formados na anlise de cluster,
representando o fator um como reas das cincias, que exigem estudo, escrita e leitura, e o
fator dois os atributos da rea psicomotora/afetiva. Este estudo poderia seguir para uma
anlise individual dos Colgios, semelhante ao procedimento admitido na anlise descritiva,
onde seria possvel verificar qual instituio se adapta melhor ao padro formado pela anlise
de componentes principais. Optou-se por verificar a relao de alguns alunos com os fatores
identificados. Foram escolhidos seis alunos, trs de cada Colgio.
Aps a projeo das variveis no crculo unitrio e projeo dos casos no plano
fatorial, observa-se que, dos alunos selecionados para anlise, quatro esto no mesmo sentido
das disciplinas da rea das cincias. Um aluno apresentou a menor nota de Educao Fsica e
Comportamento Bom, abaixo da mdia geral de comportamento, o que determinou sua
localizao oposta localizao das disciplinas de Educao Fsica e Grau de
Comportamento. Dessa forma, utilizando-se AC, ACP e AF, pde-se identificar um padro
entre os Colgios e classificar alunos de acordo com o modelo formado.
Aps a identificao de que o Grau de Comportamento (GrauComp) no significante
em relao as demais variveis, procura-se determinar quais disciplinas so mais importantes
para a questo da aprovao final, ainda se utilizando outra varivel que a dos Pontos
Perdidos (PPerd). Por se tratar de um mtodo de classificao de casos, usa-se, nesta etapa do
estudo, a anlise discriminante.
Nesse caso, utiliza-se a varivel categrica Situao (Situac) para se classificar os
alunos e gerar a funo discriminante. As disciplinas de Fsica, Geaografia e Matemtica so
as mais representativas no que se refere classificao pela situao da matrcula. Isso
significa que, no boletim do aluno, essas disciplinas so as que mais influenciaram na
caracterizao da situao de aprovao do aluno no ano de 2004.
Dessa forma, pode-se identificar a seguinte funo de classificao para :
a) Y APROVADOS = 1,1424 * Fis + 7,9415 * Geo + 0,7309 * Mat -36,8693
b) Y APROVADOS C/PR = 0,0255 * Fis + 6,6570 * Geo + 0,7383 * Mat -23,9353

166

c) Y REROVADOS = 0,7655 * Fis + 7,7274 * Geo -0,5777 * Mat -28,6316


A Matriz de Classificao, apresentada na Tabela 2, demonstra o percentual de
validao da funo discriminante, onde se pode notar que, para os Aprovados, a funo
discriminante acerta em 98,4 % dos casos. Nota-se ainda que o percentual total de acerto do
modelo de 90,7 %.
Percentual
Aprovado
98,42209
Aprovado c/PR
52,83019
Reprovado
4,54545
Total
90,72165
Tabela 2 Matriz de classificao

Aprovado
499
25
17
541

Aprovado c/PR
8
28
4
40

Reprovado
0
0
1
1

Aps a identificao das variveis significantes, parte-se para uma aplicao prtica,
onde, informa-se o provvel grau para as disciplinas selecionadas pela funo discriminante, e
apresenta-se um resultado gerado pela classificao.Utiliza-se, como exemplo um suposto
aluno a ser testado no modelo criado. Informa-se para Matemtica o grau igual 5,5, para
Geografia, o grau igual a 6 e Fsica, o grau igual a 6. Para a classificao do aluno foi
utilizada a distncia de Mahalanobis.
Dessa forma, pode-se afirmar, com 98,42209% de certeza, que o referido aluno foi
classificado na situao Aprovado sem realizar recuperao no final do ano letivo, pois o
menor valor da distancia a dos Aprovados.

5. Concluses e recomendaes
Utilizando tcnicas estatsticas multivariadas, baseado no rendimento dos alunos,
elaboraram-se alguns modelos de perfil dos Colgios e dos alunos. Nas trs anlises
realizadas, verifica-se a relao entre alguns indicadores de qualidade, disponibilizando,
assim, subsdios para a tomada de decises da administrao.
Na primeira anlise, pode-se identificar um padro entre os Colgios e classificar as
escolas de acordo com o modelo formado, onde se conclui que os alunos concursados
apresentam melhor desempenho que os amparados, considerando-se a mdia global da srie.
Constata-se, ainda, que h um maior nmero de alunos com rendimento baixo nos amparados,
principalmente no CMRJ. A representao do rendimento, comparada com a origem do aluno,
atravs de histogramas na anlise descritiva, disponibiliza uma viso clara das distribuies
formadas, o que comprova o eficiente uso da tcnica empregada.
Na segunda anlise, verifica-se a relao entre as disciplinas e o comportamento, onde
se caracterizam dois Colgios, e classificam-se os alunos de acordo com o modelo formado.
Atravs da anlise de cluster, pode-se identificar um agrupamento, que representa os atributos
da rea psicomotora/afetiva, e outro, formado pelas reas de cincias/cognitivas.
Nota-se, ainda, um agrupamento das disciplinas de Lngua Portuguesa e Biologia,
assim como Qumica e Fsica. Esses esto agrupados porque apresentam mdias semelhantes,
ou seja, um aluno que tem bom rendimento em uma disciplina, tambm apresenta esta
caracterstica na outra disciplina do grupo.
Usa-se anlise fatorial, por ser uma tcnica utilizada na tentativa de reduzir um grande
conjunto de variveis para um conjunto mais significativo, representado pelos fatores, onde se
nota que os agrupamentos formados pela anlise fatorial so semelhantes aos formados na

167

anlise de cluster. Utiliza-se a anlise de compoanentes principais para identificar as variveis


mais importantes em cada fator.
Com a inteno de verificar a relao de alguns alunos com os fatores identificados,
classificam-se seis alunos de acordo com o modelo formado. Torna-se vlida a anlise, pois se
pode caracterizar o perfil desses alunos em relao aos graus obtidos nas disciplinas e o
comportamento.
Na terceira anlise, atravs da anlise discriminate, identifica-se que as disciplinas de
Fsica, Matemtica e Geografia so as mais representativas no que se refere classificao
pela situao da matrcula e, ainda, que essas disciplinas so as que mais influenciaram na
caracterizao da situao de aprovao do aluno, no ano de 2004. Desta forma, cria-se um
modelo para caracterizar um tipo de perfil para aprovao, e utiliza-se, como exemplo, um
suposto aluno com seus graus nas disciplinas mais significativas.
Assim, pode-se afirmar que o referido aluno foi classificado na situao Aprovado
sem realizar recuperao no final do ano letivo. No o ideal para predio de
acontecimentos, mas pode-se admitir que um aluno que se enquadra no perfil de aprovao
em 2004 provavelmente ter um bom rendimento em 2005, seguindo uma uniformidade dos
modelos gerados a cada ano.
Nesse caso, a tcnica foi vlida porque se pode classificar alunos em situaes de
aprovao, relacionando-os com o rendimento de ensino. Sugere-se a aplicao de anlise de
regresso para poder predizer situaes de aprovao, ou reprovao, de alunos.
Esta pesquisa importante para os Colgios Militares pois, utilizando-se informaes
sumarizadas e correlacionadas, representadas graficamente, o comando das instituies
adquire maior dinamismo no controle dos processos de ensino. Atravs do detalhamento das
tcnicas estatsticas aplicadas na explorao de dados, pode-se conhecer melhor a anlise
multivariada, no sentido de fornecer informaes baseadas em ferramentas tecnolgicas, para
a tomada de decises.
A utilizao de indicadores de qualidade, armazenados em bancos de dados, defendida
por Gil (1992), representa uma necessidade para os rgos pblicos. Visando descoberta de
conhecimento nessas bases, deve-se ampliar a estrutura de dados das instituies para
armazenar indicadores scio-econmicos, atributos da rea afetiva, dados mdicos e
psicolgicos e ndices de satisfao das pessoas.
As novas ferramentas de data mining possuem ambientes grficos, onde se modela um
projeto de explorao de dados. Este projeto, conectado com um banco de dados dinmico,
mostra cenrios pr-definidos em tempo real, podendo ser acompanhado ao longo do tempo.
Logo, sugestiona-se a utilizao de uma ferramenta de controle estatstico nas instituies,
para determinao das caractersticas dinmicas dos processos que envolvem a rea de ensino.
Amparado na significncia das informaes contidas nas imensas bases de dados, estes,
includos no decorrer da existncia da escola, os projetos de explorao devem ser definidos
pela administrao de ensino, determinando que indicadores analisar.
Cinco tipos de conhecimento so fundamentais para um bom trabalho de explorao
de dados: conhecimento dos dados analisados, conhecimento na rea da qualidade,
conhecimento em estatstica, conhecimento dos programas de computador com recursos de
minerao de dados, e, principalmente, conhecimento das regras do negcio.
imprescindvel dispor de analistas capacitados que saibam interagir com os sistemas,
de forma a conduz-los para uma extrao de padres teis e relevantes.
Objetivando aumentar competncia e a criatividade nas instituies no que se refere
organizao e gesto de sistemas de qualidade, atravs da metodologia desenvolvida neste
trabalho, pode-se aplicar essas anlises em instituies de ensino pblico e/ou privado,
caracterizando, assim, as diferenas regionais e conhecendo a vocao do local onde a escola
se encontra.

168

Referncias
BRAGA, Luis Paulo Vieira. Introduo minerao de dados. Rio de Janeiro: E-Papers
Servios Editoriais, 2004.
FERRAUDO, Antnio. Anlise multivariada. So Paulo: StatSoft South Amrica, 2005.
GIL, Antnio de Loureiro. Qualidade Total nas Organizaes. So Paulo: Atlas, 1992.
LOUZADA NETO, F.; DINIZ, C.A.R. Data mining: uma introduo. So Paulo: Associao
Brasileira de Estatstica, 2000.
MALHOTRA, Naresh K. Pesquisa de Marketing: uma orientao aplicada. Porto Alegre:
Bookman, 2001.
MAGNUSSON, Wiliam E.; MOURO, Guilherme. Estatstica sem matemtica. Londrina,
PR: Planta, 2003.
MORRISON, D.F. Multivariate statistical methods. 2. Ed., New York: Mc Graw Hill,
1976.
SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDERSHAN, S. Sistema de banco de
dados. So Paulo: Makron Books, 1999.
SNEATH, P. H. A.; SOKAL, R. R. Numerical taxonomy. San Francisco, USA: Freeman
Co.,1973.
STAIR. R. M. Princpios de sistemas de informao: uma abordagem gerencial. 2. ed. Rio
de Janeiro: LTC, 1998.
VIRGILLITO, Salvatore B. Estatstica aplicada. So Paulo: Alfa-Omega, 2004.
WERKEMA, M. C. C. As ferramentas da qualidade no gerenciamento de processos. Belo
Horizonte: Fundao Christiano Ottoni, 1995.

169

ARTIGO 3
PRODUO AGRCOLA: UMA SINTESE MEDIANTE TCNICAS ESTATSTICAS
Lorena Vicini
Adriano Mendona Souza
Resumo
Neste trabalho, tem-se por objetivo analisar a produo de gros no setor agroindustrial, nos
estados brasileiros, no perodo de 1995 a 2002. Para que se cumpra este objetivo, sero
utilizadas tcnicas da anlise multivariada e a anlise de varincia. A anlise de varincia
utilizada como uma tcnica confirmatria, em relao aos resultados obtidos na anlise
multivariada. Mediante anlise dos resultados, foi possvel identificar, no decorrer deste
perodo, as caractersticas regionais, ou seja, o tipo de cultura que predominante em cada
regio. Concluiu-se, ento, que os estados que possuem os maiores ndices de produo de
gros do pas, e o tipo de cultura que predomina nesses, so as seguintes: arroz no RS; soja,
trigo, milho e feijo no PR; caf em MG. Outras regies tambm produzem, mas com uma
menor representatividade em relao produo nacional de gros, so os estados de RO, AC,
AM, RR, AP, TO, MA, PI, CE, RN PB, PE, AL, SE BA, ES, RJ, SC, DF. Os resultados, aqui
obtidos, podem contribuir para a formao de polticas de incentivo agroindstria nacional,
bem como no desenvolvimento das regies que no esto apontados como destaque na
produo.

Palavras-Chave: Anlise Multivariada, Setor agroindustrial, Produo, Anlise de Varincia.

1 Introduo
No restam dvidas sobre a importncia da cincia e da tecnologia agroindustrial
para o desenvolvimento do setor rural. No Brasil, e no mundo, estudos comprovam que novas
variedades de plantas, aliadas a novos mtodos de cultivo, elevaram a produtividade, e/ou
reduziram custos de produo acelerando o desenvolvimento do setor rural.
Agroindstria, hoje, sinnimo de agregao de valor; de adequao de matriasprimas; de preservao e segurana dos alimentos; de desenvolvimento de processos e
produtos; de desenvolvimento de equipamentos; de construo e aperfeioamento de modelos
de gesto; de convenincia no consumo e de sistemas de produo construdos em bases
sustentveis. A funcionalidade da agroindstria, portanto, constitui uma dimenso econmico,
social e ambiental de grande importncia para a sociedade brasileira (LEITE, 04/03/05).
Os dados divulgados, sobre a agroindstria brasileira, mostram um significativo
crescimento na produo nacional, o qual s em 2003 cresceu 1,6%, atingindo, pelo terceiro
ano consecutivo, uma expanso acima da indstria em geral, que no ano de 2004 registrou
apenas um discreto crescimento de 0,3%. De acordo com dados divulgados, no dia 13, pelo
Instituto Brasileiro de Geografia e Estatstica (IBGE), de 2000 para 2003, a atividade
industrial nacional cresceu 4,5%, e somente a agroindstria avanou 13,3% (IBGE, 10/05/05).
Esse crescimento econmico est sendo possvel devido aos incentivos fiscais, no
setor rural da economia, e aos avanos da tecnologia voltados para agroindstria, pois hoje
no mais existem solos que possam ser ditos no cultivveis, j que, com as devidas

170

correes, esse passa a ser produtivo. Outro fator, que deve ser levado em considerao, o
grande territrio brasileiro. Isso tambm contribui para que o pas se destaque, cada vez mais,
em relao ao cenrio mundial na produo de alimentos.
A agroindstria um dos principais segmentos da economia brasileira, com
importncia tanto no abastecimento interno como no desempenho exportador do Brasil. Uma
avaliao recente estima que sua participao no Produto Interno Bruto (PIB) seja de 12%,
tendo uma posio de destaque entre os setores da economia, junto com a qumica e a
petroqumica. Na dcada de 70, a agroindstria chegou a contribuir com 70% das vendas
externas brasileiras. Atualmente, essa participao est em torno de 40%, no s pela
diversificao da pauta de exportaes, mas tambm pela tendncia queda dos preos das
commodities agrcolas, nos ltimos 20 anos. Ainda assim, o setor cresceu e aumentou o valor
das exportaes em quase todos seus segmentos (SILVEIRA, 04/03/05).
O objetivo do trabalho a analisar, por meio de tcnicas estatsticas, como comportouse a produo de gros no pas, no perodo de 1995 a 2002, de forma a mostrar,
estatisticamente, as diferenas significativas entre as regies produtoras.

2 Metodologia
Neste trabalho, buscou-se demonstrar as diferenas existentes entre as regies do Brasil
atravs de tcnicas estatsticas uni e multivariadas, para a caracterizao de todos estados
brasileiros.
Inicialmente, elaborou-se um banco de dados constitudo pelos 27 estados brasileiros e pela
produo de gros. Essa produo representada pelas seguintes culturas: soja, milho, caf,
trigo, girassol, feijo e arroz, entre outras, perfazendo um total de 26 variveis, num perodo
de oito anos. As culturas em estudo so constitudas pelos produtos de maior expresso de
produo, nos 27 estados brasileiros com coletas anuais.
Posteriormente, uma anlise descritiva foi conduzida para se conhecer o perfil de produo de
cada estado brasileiro. Para efetuar a anlise, foi realizada uma mdia bianual das produes,
pois esta possibilitou uma melhor visualizao das variveis, no sobrepondo, graficamente,
as culturas analisadas. Esta anlise tambm possibilitou uma investigao dentro de cada
cluster formado, pois estes foram formados de acordo com a produo ocorrida em cada
cultura, ou seja, as produes semelhantes permaneceram em um mesmo grupo. Com isso, foi
possvel identificar, graficamente, as oscilaes ocorridas no perodo de 1995 a 2002.
Devido natureza dos dados, a anlise multivariada foi aplicada para se entender o
inter-relacionamento entre os estados e a sua produo. A anlise foi realizada a partir da
matriz constituda por 27 estados e caracterizada por 26 variveis, que representam os
produtos.
Para a associao da produo foi utilizada a anlise cluster (AC), agrupando os
produtos, em funo de suas caractersticas fenotpicas e dendomtricas. Essa anlise foi
aplicada utilizando-se o mtodo aglomerativo hierrquico, que possibilita vrias reunies
entre os produtos e os anos que possuem as mesmas caractersticas, ou seja, possuem uma
mdia de produo semelhante. O processo de aglomerao tem incio com as variveis que
possurem maior semelhana, e este procedimento se repetir at que a ltima varivel esteja
agrupada.
Para que esta unio, entre grupos, seja possvel, utiliza-se o mtodo de encadeamento
nico (single linkage) que se baseia na distncia mnima, utilizando a regra do vizinho mais
prximo.

171

A representao das seqncias de agrupamentos formados apresentada na forma


de um grfico de rvore, tambm chamado de dendograma. O dendograma expressa, no
sentido da reta horizontal, a que distncia cada produto est em relao ao outro, ou seja,
quanto menor distncia mais homogneos so os produtos, e, no sentido da reta vertical, a
distncia que cada grupo foi formado. Geralmente o corte realizado na metade da maior
distncia, podendo-se utilizar outros critrios para realiz-lo.
Aps realizado o agrupamento das variveis, utilizou-se a anlise de componentes
principais (ACP) e a anlise fatorial (AF), para identificar quais as variveis so relevantes
dentro do sistema produtivo de gros dos estados, e a anlise fatorial para identificar o que os
estados produzem. Para tal, utilizou-se a correlao entre as componentes principais e as
variveis originais, os planos fatoriais e o crculo unitrio. Por meio destas tcnicas foi
possvel identificar os estados que melhor representam a produo de gros do pas, bem
como o tipo de cultura que predomina em cada regio. A partir dessas anlises, possvel,
ento, caracterizar cada regio com a sua produo.
Como a produo dos estados, em muitos casos, semelhante, utilizou-se a anlise
de varincia ANOVA- como uma tcnica confirmatria em relao aos resultados obtidos da
anlise multivariada, ou seja, verificando-se se existe diferena entre os estados que
representam a produo nacional de gros. Se essa diferena for significativa, em nvel de
= 5% de significncia, conclui-se, ento, que existe diferena entre a produo de gros dos
estados brasileiros.
Espera-se, com este procedimento, verificar, posteriormente, se essa diferena
devido a fatores climticos, de incentivos e de tradio ao plantio.

3 Resultados e discusses
Em quase todas as reas de aplicao pesquisas so realizadas, e vrias variveis so
observadas. Essas variveis, em geral, no so independentes e, por isso, devem ser analisadas
conjuntamente. Anlise Multivariada a rea da Estatstica que trata desse tipo de anlise.
Vrias so as tcnicas que podem ser aplicadas aos dados. Sua utilizao depende do tipo de
dado que se deseje analisar, e dos objetivos do estudo.
Inicialmente, realizou-se uma anlise de cluster para verificar os grupos formados no
dendograma, ou seja, aquelas variveis que possurem as mesmas mdias de produo iro
formar grupos homogneos, as variveis que possurem uma produo diferenciada das
demais formaro grupos heterogneos.
A Figura 01 mostra o dendograma formado a partir da matriz inicial de variveis,
mediante a tcnica da anlise de cluster. Esses grupos foram definidos pelo traado de uma
linha paralela ao eixo horizontal, denominada Linha Fenon. Optou-se por traar esta linha
entre as alturas 8x106 e 1x107, que representam as distncias euclidianas de ligao entre as
vaiveis. Observa-se a formao de trs grupos distintos. O grupo I representado por aqueles
produtos cuja produo acontece em menor escala. So as variveis: AR, que representa a
produo de arroz; FE, que representa a produo de feijo; GI, que representa a produo de
girassol; TRI, que representa a produo de trigo e CA, que corresponde produo de caf,
formando, assim, o primeiro grupo do dendograma. Enquanto que no grupo II e III reuniu-se
os produtos que so cultivados em maior escala, em relao produo nacional. O grupo II
formado pela varivel MI, que corresponde produo de milho, e o grupo III representado
pela varivel SO, que corresponde produo de soja. Pode-se observar que os trs grupos
formados so distintos, ou seja, isto significa dizer que existe homogeneidade dentro de cada
grupo e heterogeneidade entre os grupos. Isto , as variveis esto agrupadas por uma
caracterstica comum. Observa-se, tambm, que a produo de soja e a produo de arroz so

172

as mais distantes, pois esto nos extremos do dendograma. As produes mais similares so
as de feijo e as de girassol. Vale lembrar, aqui, que a altura do dendograma corresponde s
mdias de produo de cada cultura.
Dendograma
1,6E7
1,4E7
1,2E7

Distncia

1E7
8E6
6E6
4E6

AR 95/96

AR 97/98

AR 99/00

FE 95/96

AR 01/02

FE 97/98

FE 99/00

FE 01/02

GIR 99/00

TRI 95/96

GIR 01/02

TRI 97/98

TRI 99/00

CA 95/96

TRI 01/02

CA 97/98

CA 99/00

MI 95/96

CA 01/02

MI 97/98

MI 99/00

MI 01/02

SO 95/96

SO 97/98

SO 99/00

SO 01/02

2E6

Figura 01: Dendograma da anlise de cluster.

Aps esta anlise, efetuou-se o estudo da ACP e AF, com a inteno de se obter
quais as variveis mais importantes, e entender o seu inter-relacionamento.
Embora existam diversos mtodos para encontrar os autovalores e autovetores, a
ACP a que melhor desempenha este papel, sem que o pesquisador possua um profundo
conhecimento, pois dessa forma sempre se tem a garantia de se obter fatores nicos e nocorrelacionados (JOHNSON,1995).
Existem dois mtodos para determinar o nmero de componentes a serem utilizados
na anlise. O primeiro consiste em selecionar aquelas componentes cujos valores prprios
sejam superiores a 1, ou que possurem uma varincia igual ou superior a 70%, conforme
Tabela 01. Esse critrio de seleo sugerido por Kaiser (1960 apud MARDIA, 1979).
Neste trabalho, as cinco componentes iniciais acumulam 98,63% da varincia total
dos dados, ou seja, aproximadamente 98,63% da variabilidade dos dados explicada pelas
cinco primeiras componentes. Isso mostra que, de 26 variveis com 27 observaes, passa-se
a utilizar cinco componentes com 27 observaes que representam o conjunto original,
havendo, dessa forma, uma reduo de dimensionalidade do problema, com perda de
explicao de 1,37%.

173

Tabela 01: Autovalores e a varincia explicada por cada componente.


Componentes

Autovalores

Varincia total

Autovalores
acumulados

Total
acumulado
em %

12,83

49,35

12,83

49,35

6,40

24,63

19,23

73,98

2,80

10,80

22,04

84,78

1,92

7,39

23,96

92,17

1,69

6,47

25,65

98,64

0,32

1,22

25,96

99,86

0,04

0,14

26,00

100,00

O segundo mtodo, denominado de mtodo grfico, representa, graficamente, a


porcentagem de variao explicada pela componente nas ordenadas, e os autovalores em
ordem decrescente nas abscissas. Quando essa percentagem diminui, e a curva passa a ser
praticamente paralela ao eixo das abscissas, exclui-se as componentes que restam, pois
possuem pouca informao. Esse critrio, que considera as componentes anteriores ao ponto
de inflexo da curva, foi sugerido por CATTEL (1966) e exemplificado por PLA (1986), que
considera cinco situaes distintas, conforme mostra Figura 02.
16

14

12

Valor

10

0
Nmero de autovalores

Figura 02: Proporo da variao explicada pelas componentes.

Aplicando-se a ACP, obtiveram-se as Figuras 03 e 04, as quais representam o


primeiro plano principal. A Figura 03 com a distribuio da nuvem de pontos (estados) e a
Figura 04 com a distribuio da nuvem de variveis (produtos). Estas figuras esto

174

representando o fator 1, que representado pelas variveis MI, TRI e SO, em relao ao fator
2, que representado pela varivel CA.
Na Figura 03, pode-se verificar que os estados esto distribudos de acordo com sua
representatividade em relao produo nacional de gros. Os estados que esto mais
afastados da origem so os que melhor representam esta produo.
Na Figura 04, pode-se observar a distribuio de variveis, os produtos. Mediante
esta figura verifica-se que as variveis, que melhor representam o fator 1 em relao ao fator
2, so aquelas que esto bem prximas ao crculo unitrio. Analisando-se as duas figuras,
simultaneamente, pode-se concluir que a varivel MI a que melhor representa o primeiro
plano principal, sendo esta a mais significativa e representa o estado do Paran. Este estado
tambm representa as variveis SO, TRI e FE, tendo, estas, uma menor representatividade. A
varivel AR representada pelo estado do Rio Grande do Sul e a varivel CA pelo estado de
Minas Gerais.
Fazendo-se uma anlise dos cinco fatores nos planos principais subseqentes, o
resultado encontrado anlogo ao primeiro plano principal, ou seja, as variveis milho, trigo,
soja e feijo so as que representam a produo do estado do Paran. A varivel arroz
representa a produo do estado do Rio Grande do Sul, e a varivel caf est representando a
produo do estado de Minas Gerais, no perodo de 1995 a 2002.
Projeo dos estados no plano principal fator 1 x fator 2
12
10
MG
8
6

Fator 2: 22,70%

4
2

SP
PR

SC
GO

0
-2

ES

BA

CE
RO
PE
PB
AL
RN
SE
DF
PI
PA
RJ
AC
AM
AP
RR
TO
MS MA

MT

-4
RS

-6
-8
-10
-12
-14
-20 -18 -16 -14 -12 -10

-8

-6

-4

-2

Fator 1: 54,74%

Figura 03: Grfico da distribuio da nuvem de pontos.

Active

175

Projeo das variveis no plano pribncipal fator 1 x fator 2


1,0
CA
95/96
CA
97/98
CA
99/00
01/02

FEFE
01/02
FE
95/96
FE97/98
99/00

Fator 2 : 22,70%

0,5

MI 01/02
95/96
97/98
MI
MI 99/00
0,0
TRI 95/96
97/98
TRI
TRI 01/02
SO
95/96
SO
01/02
TRI
99/00
SO
97/98
SO
99/00
AR
AR 95/96
97/98
AR
AR 99/00
01/02

-0,5

-1,0
-1,0

-0,5

0,0

0,5

1,0

Active

Fator 1 : 54,74%

Figura 04: Grfico da distribuio da nuvem de variveis.

Em estatstica, h muitas tcnicas que podem ser aplicadas para que seja realizada a
anlise dos dados. O ideal aplicar outras tcnicas que confirmem os resultados obtidos.
Devido a este fato, realizou-se uma anlise de varincia, que vem confirmar os resultados
obtidos com as tcnicas multivariadas, ou seja, verificar se existe diferena significativa entre
estes estados que melhor representam a produo nacional de gros. J que a primeira uma
anlise confirmatria, e a segunda exploratria.
Tabela 02: Anlise de varincia.
ANOVA
Fonte da
variao

SQ

gl

MQ

valor-P

F crtico

Estados

1,38035E+15

2,76E+14

60,16717

7,47068E-21

2,386066

Culturas

3,7946E+13

1,9E+13

4,135013

0,021335235

3,168246

Interaes

2,46859E+15

10

2,47E+14

53,80089

1,8184E-24

2,011181

Dentro

2,47772E+14

54

4,59E+12

TOTAL 4,13465E+15

71

Como pode-se observar, o valor de p < , considerando = 5% de significncia,


diz existir diferena significativa entre a produo de gros dos estados brasileiros. Podendose, ento, observar que culturas diferentes possuem regies diferenciadas de produo. Isto
seria um tanto lgico de se esperar, pois, climaticamente, sabe-se que determinadas culturas,

176

como o trigo, precisa de regies frias para o seu cultivo. Sabe-se, tambm, que existem
variedades de sementes de trigo que so adaptadas para o seu cultivo em regies de condies
climticas no to favorveis. O mesmo ocorre com a produo de milho, feijo e outras
culturas.

4 Concluses
As tcnicas da anlise multivariada, utilizadas neste estudo, mostram-se pertinentes.
Pois foi possvel sintetizar, num determinado perodo, quais as regies em que determinada
cultura predominou, num perodo de oito anos, identificando os estados que melhor
representaram a produo nacional de gros, bem como o tipo de cultura existente.
No perodo de 1995 a 2002, as regies e as culturas que se destacaram na produo
nacional de gros foram: a regio sul, pela produo de milho, trigo, feijo, soja e arroz e a
regio sudeste, pela produo de caf. As outras regies no apresentaram uma produo
expressiva. Contudo, estas regies podem estar dedicadas a outras atividades econmicas,
como a bovinocultura, algodo, fruticultura, indstrias, entre outras atividades.
A anlise de varincia serviu para confirmar os resultados obtidos nas tcnicas
multivariadas, ou seja, mostrou que existe diferena significativa de produo entre as regies
do Brasil. Esses resultados so importantes, sabendo-se haver uma heterogeneidade de
produo entre os estados brasileiros, a qual se deve, em especial, s diferenas climticas,
culturais e de incentivos fiscais, entre outros fatores.
Neste ano, pretende-se realizar um novo trabalho, a partir do perodo de 2002 at
2004, para que seja possvel verificar se a produo dessas culturas sofreu alguma
modificao, tanto em relao ao aumento da produo nacional quanto em relao s regies
em que foram destaque no perodo de 1995 a 2002, se ainda so essas que possuem as mais
expressivas produes do pais, ou se, a partir de 2002, com o aumento do preo da soja e com
as mudanas sofridas no cenrio produtivo nacional, pode-se acreditar que esses resultados
tenham mudado.
Esses resultados podero vir a contribuir para a formao de polticas de incentivo
agroindstria regional e nacional, pois, identificadas s regies que possuem carncia de
produo, pode-se, por meio de pesquisas nas reas de agronomia e gesto do agronegcio,
difundir novos mtodos de cultivos e novas variedades.

5 Referncias bibliogrficas
AGROINDSTRIA brasileira. Disponvel em: <http://www.aviculturaindustrial.com.br/>.
Acesso em: 04 mar. 2005.
AGROINDSTRIA cresce 5,3% em 2004: a melhor marca da srie histrica. Disponvel em:
<http://www.ibge.gov.br/>. Acesso em: 10 mai. 2005.
BASSAB, W. O.; MIAZAKI, . S.; ANDRADE, D. F. Introduo anlise de agrupamentos:
In: SIMPSIO BRASILEIRO DE PROBABILIDADE E ESTATSTICA, 9.,1990, So
Paulo. Resumos...So Paulo, 1990.
BOUROCHE, J. M.; SAPORTA, G. Anlise de dados. Rio de Janeiro: Zahar, 1982.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 3. ed. New
Jersey: Prentice-Hall, 1992.
JACKSON, J.E. Principal components and factor analysis: Part II - additional topics related to
principal components. Journal of Quality Technology, v.13, n.1, jan. 1980.

177

LEITE,
L.
A.
S.
Embrapa
agroindstria
<http://www.cnpat.embrapa.br/>. Acesso em: 04 mar. 2005.

tropical.

Disponvel

em:

MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London: Academic, 1979.
PLA, E. L. Analisis multivariado: mtodo de componentes principales. Falcn: Coro, 1986.
SILVEIRA, J. M. Agroindstria. Disponvel em: <http://www.mre.gov.br/>. Acesso em: 10
mar. 2005.

178

ARTIGO 4
AVALIAO DA FAUNA EDFICA EM CAMPO NATIVO MEDIANTE TCNICAS
DA ANLISE MULTIVARIADA

Luiz Eugnio Jacobs


Paulo Luis Guth
Lorena Vicini
Odorico Antonio Bortoluzzi
Thom Lovato
RESUMO: Devido ao fato de a natureza ser um sistema dinmico, torna-se importante o estudo sobre
o solo e toda a fauna que o habita, pois a mesma reflete o padro de funcionamento do ecossistema. As
coletas da fauna, umidade e temperatura foram realizadas semanalmente em uma rea do
departamento de solos da UFSM. O objetivo deste trabalho verificar a abundncia em que os
organismos so encontrados no solo e, tambm, analisar se umidade e temperatura exercem influncia
sobre a fauna edfica do mesmo. Para a anlise desses dados, obtidos durante seis meses de coletas,
recorreu-se a tcnicas estatsticas da anlise multivariada, tais como a anlise de Cluster e a anlise de
componentes principais (ACP). Essas tcnicas possibilitaram observar os grupos formados pelos
organismos (variveis), que possuem uma caracterstica em comum, isto , a abundncia em que so
encontrados no solo. Verifica-se, tambm, que as variveis (organismos) so influenciadas pelas
variveis complementares (umidade e temperatura), no decorrer de toda a anlise. Os resultados
encontrados serviro de suporte para pesquisas subseqentes, nesta rea, e tambm ajudar no manejo
do solo.

Palavras chave: Fauna Edfica, temperatura, umidade, solo, anlise multivariada.

ABSTRACT: The organisms of the soil reflect the operation of the ecosystem. In that work it was
verified the influence of the temperature and humidity on them. The multivariate analysis allowed to
observe the groups formed by the organisms and to analyze the influence of the temperature and
humidity on them.

1. INTRODUO
A natureza um sistema essencialmente dinmico, onde predomina a inter-relao entre os
seres vivos e a relao destes, com o meio em que vivem. Cada fator da natureza, animal, planta e solo
influem um sobre o outro, e a modificao de um condiciona a alterao de outro.

179

No princpio o homem estudou esses fatores isoladamente, sem qualquer relao com os demais
fatores. Somente mais tarde passou a observar a relao desses, bem como as transformaes que
sofrem e as conseqncias geradas nesse processo evolutivo.
Desta maneira, preocupou-se muito com a natureza e, dentro desta, com o solo e toda a comunidade
variada que o compem, que tanto em termos quantitativos, como qualitativos so indispensveis sua
conservao e funcionamento. Segundo Lopes Assad et al (1997) o biofuncionamento do solo e o
conjunto de suas funes edficas, interagindo com fatores ambientais, so dependentes de regulaes
biolgicas das plantas, microorganismos e fauna edfica.
O conhecimento da biologia do solo, associado s informaes oriundas de todos os ramos do
conhecimento, torna-se indispensvel ao estudo de sua morfologia, o que poder nos proporcionar a
maneira mais adequada ao manejo de nossos solos, garantindo maior equilbrio com os demais
componentes biticos e abiticos.
As modificaes do clima e do manejo do solo exercem influncia direta, e indireta, sobre a fauna
edfica do solo, podendo diminuir o nmero e a diversidade dos organismos que o compem
(VARGAS e HUNGRIA 1997).
Devido importncia em analisar a influncia da temperatura e umidade do solo sobre a sua
meso e a macrofauna, realiza-se este trabalho, que tem como objetivo verificar se a temperatura e a
umidade influenciam na quantidade e diversidade de organismos existentes no mesmo.

2. METODOLOGIA

2.1 Metodologia de coleta de solo, umidade e temperatura

As coletas so realizadas na rea experimental do Departamento de Solos, na UFSM/RS.. O


solo classificado como Argiloso Vermelho Distrfico arnico (Embrapa, 1999). As coletas de
amostras de solo, para determinar a fauna e umidade, so feitas em quatro pontos diferentes em uma
rea de campo nativo. As amostras coletadas so acondicionadas em sacos plsticos identificados. A
seguir, realiza-se a flutuao da amostra de solo, que consiste em colocar a amostra em um balde,
adicionando 5 ml de lcool etlico, na seqncia deve-se completar o balde com 2,5 litros de gua,
agitando-o com movimentos circulares. Com a gua ainda em movimento verte-se em peneira de 9
mesh e 65 mesh, quatro vezes, ou at a gua ficar clara. O material das peneiras deve ser coletado e
armazenado em lcool 70%. Para verificar a umidade o solo deve ser coletado na profundidade
desejada e, imediatamente, pesado. Aps, deve-se sec-lo em estufa a 105C, verificando-se a
porcentagem de gua existente neste e fazendo a relao entre peso seco e mido.
Para obter-se a temperatura do solo instalou-se dois geotermmetros, um a 10cm e outro a
15cm de profundidade, onde se fez a leitura semanal diretamente no instrumento.
A contagem dos organismos manual, em microscpio estereoscpio.

180

2.2 Metodologia de Anlise

As anlises dos dados so realizadas no Departamento de Estatstica da UFSM. Os dados


dos organismos obtidos, em cada coleta, so correlacionados com os dados da temperatura e umidade
tambm coletados. O mtodo estatstico, utilizado nas anlises desses dados, foi anlise
multivariada. Primeiramente desenvolve-se uma Analise de Cluster, que agrupa os organismos por
abundncia da espcie existente no solo. Em seguida realiza-se uma anlise de componentes
principais, para identificar em quais coletas a umidade e a temperatura influenciaram sobre os
organismos.
3. RESULTADOS E DISCUSSO

Em quase todas as reas de conhecimento pesquisas so realizadas e vrias caractersticas


(variveis) so observadas. Essas variveis, em geral, no so independentes e, por isso, devem ser
analisadas conjuntamente. Anlise Multivariada a rea da Estatstica que trata desse tipo de anlise.
Vrias so as tcnicas que podem ser aplicadas aos dados. Sua utilizao depende do tipo de dado que
se deseja analisar e dos objetivos do estudo. Neste estudo, pretende-se apresentar as seguintes tcnicas
multivariadas: Anlise de Agrupamentos e Anlise de Componentes Principais.
No dendograma da Figura 1 a escala vertical indica o nvel de similaridade, e, no eixo
horizontal, so marcadas as variveis, na ordem em que so agrupadas.

Tree Diagram for Variables


Single Linkage
Euclidean distances

Plot of Eigenvalues
5,0

30
4,5

4,0

25

3,5

3,0
Value

Linkage Distance

20

15

2,5

2,0
10
1,5
5

1,0

0,5

0
IYMENOP ACARINA COLEOP.
ARANAE
MOLUSC.
HEMIP.
COLLEN.
ANNELID.
QUILOP.
DIP.
DIPLOP. CRUSTACE
ISOP.

0,0
1

10

11

12

13

Number of Eigenvalues

Figura 1: Dendograma da anlise de cluster.

Figura 2: Proporo da variao explicada pela componente.

Como pode-se observar no dendograma da Figura 1, se fizermos um corte entre as alturas 5


e 10, haver trs grupos homogneos distintos. O grupo representado pelo crculo em verde, que

181

engloba a maior parte das variveis estudadas, o grupo representado pelo crculo em vermelho, da
varivel representada pelos aneldeos e o grupo do crculo em rosa, da varivel representada pelos
hymenpteros. Observa-se, ento, que os trs grupos formados so distintos, ou seja, isto significa
dizer que existe homogeneidade dentro de cada grupo e heterogeneidade entre os grupos, isto , esto
agrupados por uma caracterstica comum: maior abundncia no solo.
A definio do nmero de componentes, a serem utilizadas, feita por meio do critrio
sugerido por Cattel (1966). Este denominado de mtodo grfico e representa, graficamente, a
porcentagem de variao explicada pela componente nas ordenadas e os autovalores em ordem
decrescente nas abscissas. Esse critrio considera as componentes anteriores ao ponto de inflexo da
curva, como pode-se observar na Figura 2. O nmero de fatores a serem utilizados na anlise seis,
pois a partir do sexto fator ocorre uma estabilizao no grfico.
As Figuras 3 e 4 representam o primeiro plano principal. A Figura 3 com a distribuio da
nuvem de variveis (organismos) e duas variveis complementares, e a Figura 4 com a distribuio da
nuvem de pontos (coletas).

Projection of the variables on the factor-plane ( 1 x 2)

Projection of the cases on the factor-plane ( 1 x 2)

Active and Supplementary variables


*Supplementary variable

Cases with sum of cosine square >= 0,00


8

1,0

6
C2 C13

MOLUSC.
ANNELID.
QUILOP.

Factor 2 : 18,10%

Factor 2: 18,10%

DIPLOP.

0,5

*H2O
ISOP.
ARANAE

CRUSTACE
COLLEN.
0,0

ACARINA
IYMENOP
*Temp

C14
C9
C15
C11
C12
C6
C10
C28
C8
C27
C7
C22
C23
C25
C21
C17
C19
C26
C4C30
C24
C5
C29
C16 C18
C3

-2
C1

COLEOP.
HEMIP.
DIP.

-0,5

-4

-6
-1,0
-1,0

-0,5

0,0

0,5

1,0

Factor 1 : 33,05%

Figura 3: Grfico da distribuio da nuvem de variveis

Active
Suppl.

-8
-14

-12

-10

-8

-6

-4

-2

Factor 1: 33,05%

Figura 4: Grfico da distribuio da nuvem de pontos

Com a ACP, Figura 3, observa-se que as variveis Collembola, Hemptera, Coleptera,


Crustcea e Acarina esto bem prximas ao crculo unitrio, indicando que so mais representativas
em relao s outras, que esto mais afastadas. Verifica-se, tambm, com esta anlise, a influncia das
variveis complementares, umidade e temperatura, sobre as demais variveis. A umidade est
influenciando nos organismos que se encontram representados no primeiro e quarto quadrante do
crculo unitrio. J temperatura influencia nos organismos do segundo e terceiro quadrante do crculo
unitrio. Em resumo, pode-se concluir, neste primeiro plano principal, representado pelo fator 1 em

Active

182

relao ao fator 2, mediante ACP, que as variveis que sofreram influncia da temperatura so:
Collembola, Hemptera, Coleptera, Crustcea, Acarina, Dptera, Aranae, Diplpoda, Quilpoda,
Mollusca e Anneldeo, e as que sofreram influncia da umidade so apenas duas variveis, Isptero e
Hymenptero.
A Figura 4 mostra que as variveis que melhor explicaram o fator 1 so representadas pela coleta um
(C1), sendo elas: Collembola, Hemptera, Coleptera, Crustcea e Acarina. As variveis Diplpoda,

Quilpoda, Mollusca, Anneldeo, so representadas pelas coletas dois e treze (C2 e C13). As variveis
Dptera, Aranae, Isptero e hymenptero so representadas pelas demais coletas, neste primeiro plano
principal.
4. CONCLUSES

A anlise multivariada uma ferramenta estatstica muito til, pois suas tcnicas so
capazes de mostrar, em um grupo de variveis correlacionadas, resultados independentes. Desta forma
conseguiu-se com a aplicao da tcnica da ACP, relacionar todos os fatores selecionados pelo critrio
sugerido por Cattel (1966), em relao ao fator 1 que melhor explicou a proporo de varincia
acumulada. Pode-se concluir que as variveis complementares influenciam na quantidade e
diversidade de organismos existentes no solo. Portanto conclui-se, com este trabalho, que das duas
variveis complementares, umidade e temperatura, a temperatura teve influncia em todos os planos
principais sobre as mesmas variveis, sendo estas: Collembola, Hemptera, Coleptera, Crustcea,
Acarina, Dptera, Aranae, Diplpoda, Quilpoda, Mollusca, Anneldeo, e a umiadde influenciou
apenas sobre duas variveis, Isptero e Hymenptero. As coletas apresentaram diferentes resultados
em cada plano principal, ou seja, representaram diferentes variveis.
Pelo exposto, neste trabalho, pode-se inferir que os mtodos estatsticos aplicados na rea da
biologia do solo foram pertinentes, e os resultados obtidos podem contribuir, significativamente, para
o manejo do mesmo.

5. REFERNCIAS BIBLIOGRFICAS
CRUZ, C. D. Aplicao de algumas tcnicas multivariadas no melhoramento de plantas. 1990.
Tese (Doutorado) - ESALQ. Piracicaba, 1990.
EMBRAPA /CNPS. Sistema brasileiro de classificao de solos. Rio de Janeiro: 1999.
LOPES ASSAD; et al. Atividade biolgica em solos da regio dos Cerrados. In: CONGRESSO
BRASILEIRO DE CINCIA DO SOLO, 26, 1997, Rio de Janeiro. Resumos expandidos ... Rio de
Janeiro: EMBRAPA e UFRRJ; Campinas: SBCS. 1997. 1 CD-ROM
VALENTIN, J. L. Ecologia numrica: uma introduo anlise multivariada de dados ecolgicos.
Rio de Janeiro: Intercincia, 2000.
VARGAS, A.T.; HUNGRIA, Biologia dos solos do Cerrados. Planaltina: EMBRAPA-CPAC, 1997.

183

6 ANEXO
Neste captulo ser apresentada a reviso de lgebra que servir de auxlio
no desenvolvimento manual das tcnicas multivariadas deste trabalho.

6.1 lgebra linear


Representao e notao de matriz
Aqui sero apresentados conceitos bsicos sobre matrizes, naturalmente
aplicados na resoluo de vrios problemas, que so essenciais, no apenas porque
eles ordenam e simplificam o problema, mas tambm porque fornecem novos
mtodos de resoluo.

6.1.1 Notao geral de uma matriz

As matrizes geralmente so representadas por letras maisculas e seus


elementos por letras minsculas, acompanhados por dois ndices, que indicam a
linha e a coluna que o elemento ocupa. Dessa forma A uma matriz mxn, m linhas e

n colunas e sua representao a seguinte:

a11
a
21
.
A=
.
.

a m1

a12
a 22
.
.
.
a m2

.
.
.
.
.
.

.
.
.
.
.
.

. a1n
. a 2 n
. .

. .
. .

. a mn mxn

[ ]

ou na forma abreviada, A = a ij

mxn

, onde a ij a entrada da i-sima linha e j-sima

coluna.
Diz-se ento que A tem dimenso mxn e ser denotada por A R mxn , se as
entradas de a ij so reais.
A matriz A poder tambm ser expressa em termos de colunas:

184

A = [a1 , a 2 , ...., a n ]
onde a i R mx1 = R m , (i = 1, 2, ..., n).

Matriz quadrada

toda a matriz do tipo nxn, ou seja, com o mesmo nmero de linhas e de


colunas. Neste caso diz-se que a matriz de ordem n.

a11 a12
A = a21 a22
a31 a32

a13
a23
a33

Diz-se que A uma matriz quadrada de ordem 3. Os elementos

a11 , a 22 , e a 33 formam a diagonal principal, e a soma dos elementos da diagonal


chamado de trao.

Simtrica
Uma matriz quadrada de ordem n simtrica quando A = A t ( A t significa a

matriz transposta de A ), isto , para m = n e a ij = a ji , isso significa dizer que os


elementos acima da diagonal principal so iguais aos elementos abaixo.

1 2 2
A = 2 3 0
2 0 4


Matriz triangular

uma matriz quadrada onde todos os elementos de um lado da diagonal


principal so nulos. Existem dois tipos de matriz triangular:

Triangular superior: uma matriz quadrada, onde todos os elementos abaixo da


diagonal so nulos.

185

3 1 4
A = 0 1 2
0 0 3

Triangular inferior: uma matriz quadrada, onde todos os elementos acima da


diagonal so nulos.

1 0 0
A = 2 2 0
4 0 4

Diagonal
Se A quadrada e a ij = 0 para i j, ento A diagonal, isto , todos os

elementos que esto na diagonal principal so no nulos.


Geralmente representada por: A diag (a11 , a12 , ..., a nn )

5 0 0
A = 0 2 0
0 0 1


Identidade
uma matriz diagonal cujos elementos so todos iguais a um (a ii = 1) .

Denotada por: I n .

1 0 0
1 0
I 3 = 0 1 0 e I 2 =

0 1
0 0 1


Matriz oposta

[ ]

A matriz A oposta se A = a ij

mxn

a matriz obtida a partir de A, trocando-

se o sinal de todos os seus elementos. Notao: - A.

186

6.1.2 Operaes com matrizes




Transposio
A transposta de qualquer matriz A

R mxn

obtida trocando-se

ordenadamente linhas por colunas ou suas colunas por linhas. Conforme Valentin
(2000) a transposta de uma matriz quadrada simtrica igual a ela mesma, e a
transposta de um vetor-linha um vetor-coluna.

[ ]

Notao: A t = a ij

nxm

Observe que a primeira linha de A corresponde a primeira coluna de A t a


segunda linha de A corresponde a segunda coluna de A t e assim sucessivamente,
conforme mostra o exemplo a seguir:

2 6 7
2
A3 x 3 = 3 2 1 A3 x 3 = A3 x 3 = 6
5 4 2
7
1 7
1
ou A3 X 2 = 2 8 A3 x 2 = A2 x 3 =
7
4 6

3 5
2 4
1 2
2 4
8 6

Adio e subtrao de matrizes

A adio e a subtrao de duas matrizes ocorre existe matrizes de mesma


ordem, veja os exemplos :

Adio

[ ]

[ ]

A soma de duas matrizes de mesma ordem, Amxn = a ij e Bmxn = bij , uma


matriz mxn, que denotaremos A + B, cujos elementos so somas dos elementos

correspondentes de A e B, isto , A + B = a ij + bij

mxn

(BOLDRINI, 1986).

187

A + B= C
1 4
2 7
A=
eB=

3 5
3 6
1 + 2 4 + 7
3 11
A+B=
C =

3 + 3 5 + 6
6 11
Subtrao

[ ]

Dadas as matrizes A = a ij

mxn

e B = [b ij ]m x n , chamamos de diferena

entre as matrizes A e B a soma de A com a matriz oposta de B.


Notao: A - B = A + (-B)

1 4 2 7 1 4 2 7 1 2 4 7 1 3
3 5 3 6 = 3 5 + 3 6 = 3 3 5 6 = 0 1

Deve-se ter em mente que a adio e subtrao de matriz so operaes


comutativas e associativas, portanto:
A+B=B+A
A + (B + C) = (A + B) + C

Multiplicao de uma matriz por um nmero real

[ ]

Seja A = a ij

[ ]

k.A = ka ij

nxm

nxm

e K um nmero real, ento a nova matriz ser definida por:

Multiplica-se cada elemento da matriz pelo nmero real.

1 2 4 2.1 2.2 2.4 2 4 8


2.2 1 3 = 2.2 2.1 2.3 = 4 2 6
3 0 2 2.3 2.0 2.2 6 0 4

Multiplicao de matrizes

[ ]

O produto de duas matrizes obtido por A = a ij

[ ]

C = cij

mxn

mxp

[ ]

e B = b ij

pxn

a matriz

, onde cada elemento c ij obtido mediante a soma dos produtos dos

188

elementos correspondentes da i-sima linha de A e pelos elementos da j-sima


coluna de B. Esta operao s ser possvel se o nmero de colunas da primeira
matriz for igual ao nmero de linhas da segunda.

A mxp .B pxn = C mxn

a11 a12
b
b b
A3 X 2 = a21 a22 e B2 x 3 = 11 12 13
b21 b22 b23
a31 a32
a11b11 + a12b21 a11b12 + a12b22 a11b13 + a12b23
C3 x 3 = a21b11 + a22b21 a21b12 + a22b22 a21b13 + a22b23
a31b11 + a32b21 a31b12 + a32b22 a31b13 + a32b23

A 2 x 3 .B3x 3 = C 2 x 3
2 2 8
1 3 3

4 3 1
2 .3 + 2 .0 + 8 .2
2 .1 + 2 .1 + 8 .0
2 0 1 = 2 .4 + 2 .2 + 8 .1

1.4 + 3.2 + (3).1 1.3 + 3.0 + (3).2 1.1 + 3.1 + (3).0 =

1 2 0

20 22 4
C 2 x3 =

7 3 4
A associao de duas matrizes associativa, mas no comutativa.

Amxp .( B pxn .Cmxn ) = ( Amxp .B pxn ).Cmxn


Amxp .B pxn B pxn . Amxp

Matriz Inversa
Se A e B R nxn e A.B = B. A = I n , ento B a inversa de A. Denotada por

A 1 .
Conforme Valentin (2000) uma matriz s inversvel se for quadrada, mas
nem toda a matriz quadrada pode ser inversvel. Uma matriz que no admite

inversa chamada matriz singular.


Obs: Se A 1 existe A dita no singular.

189

Propriedades:
i ) A 1 . A = A. A 1 = I
ii ) A 1 =
iii ) A t

1
A

[ ]

= A 1

Determinante
Por definio tem-se que, seja A uma matriz quadrada. A funo
determinante denotada por det e definimos por det A como soma de todos os
produtos elementares com sinal de A. O nmero de det A chamado determinante
de A. Uma observao importante que para cada matriz existe um nmero real
denominado determinante da matriz.
Se A no singular, ento:

det A =

ij

(1) i + j det Aij

j =1

onde Aij a submatriz da inicial, na qual a i-sima linha e a j-sima coluna foram
retiradas.
Escreve-se determinante de A pela expresso: A = det .A = A

determinante de matriz de 1 ordem

Dada uma matriz quadrada de 1 ordem A =

[a11 ] ,

chama-se de

determinante associado `a matriz A o nmero real a 11 .


Notao: det A ou a11 .
A 1 = [2] det A 1 = 2 ou 2 = 2

determinante de matriz de 2 ordem

a 11
a 21

Dada a matriz A =

a 12
, de ordem 2, por definio, tem-se que o
a 22

determinante associado a essa matriz, ou seja, o determinante de 2 ordem dado


por:

190

det A =

a 11

a 12

a 21

a 22

= a 11 a 22 - a 12 a 21 ,

assim:
det A = a 11 a 22 - a 12 a 21 ,

1 0
sendo A =
, ento:
2 5
det A =

1 0
2 5

= 1.5 - 2.0 = 5 - 0 = 5,

logo det A = 5
Deve-se observar que o determinante de uma matriz de ordem 2 dado
pela diferena entre o produto dos elementos da diagonal principal e o produto dos
elementos da diagonal secundria.

Propriedades:
i) Se todos os elementos de uma linha ou coluna de uma matriz A so nulos, ento
det A = 0.
ii) det A = det A t
iii) Trocando a posio de duas linhas (ou colunas) o determinante troca de sinal.
iv) O determinante de uma matriz que tem duas linhas (ou colunas) iguais ou
proporcionais zero. Em geral,
v) det (A+B) det (A) + det (B).
vi) det (A.B) = det (A) + det (B).
vii) Se multiplicar uma linha da matriz por uma constante, o determinante fica
multiplicado por esta constante
viii) Se A singular ento o det A = 0
Se A no singular ento o det A 0

a c
A matriz A =
singular se, e s se, det A = 0
b d
O determinante de uma matriz pode ser calculado de duas formas pelo
Teorema de Laplace, que serve para calcular o determinante de matrizes de
qualquer ordem ou pela Regra de Sarrus, que serve para calcular o determinante de
matrizes de ordem 3.
Para aplicar o Teorema de Laplace faz-se necessrio citar algumas
definies de clculos intermedirios:

191

 menor complementar: Chama-se menor complementar relativo ao elemento a ij


de uma matriz A, quadrada e de ordem n > 1, o determinante AC ij , de ordem n 1,
associado matriz obtida de A quando elimina-se a linha e a coluna que passam por
a ij .

a11
a) Dada a matriz A =
a 21

a12
, de ordem 2, determinar o menor complementar
a 22

relativo ao elemento a11 (AC 11 ), retirando a linha 1 e a coluna 1:


Logo:
MC 11 = a 22 = a 22
Da mesma forma, temos:

menor complementar relativo ao elemento a12 :

MC 12 = a 21 = a 21

menor complementar relativo ao elemento a 21 :

MC 21 = a12 = a12

menor complementar relativo ao elemento a 22 :

MC 22 = a11 = a11

1 0 2
b) Dada a matriz A = 2 3 0 , de ordem 3 determina-se:
1 1 3

MC 11 =

MC 12 =

MC 13 =

3 0
1 3

3.3 - (1.0)= 9

2 0
1 3
2 3
1 1

- 2.3 - (-1.0) = - 6
- 2.1 - (-1.3) = 1

Analogamente torna-se possvel determinar MC 21 ,


MC 32 , MC 33 . Logo a matriz do menor complementar ser:

MC 22 , MC 23 , MC 31 ,

192

9 6 1
M = 2 5 1
0
4 3

Cofator: Chama-se de cofator relativo ao elemento a ij de uma matriz quadrada de


ordem n o nmero A ij , tal que A ij = ( 1)i

a11
Dada A =
a 21

+ j

.MC ij .

a12
, os cofatores relativos a todos os elementos da matriz
a 22

A so:
1 + 1

. a 22 = (-1) . a 22 = + a 22

1 + 2

. a 21 = (-1) . a 21 = - a 21

A 11 = (-1)

A 12 = (-1)

A 22 = (-1)

A 21 = (-1)

2 + 2

2 + 1

. a 11 = (-1) . a 11 = + a 11
3

. a 12 = (-1) . a 12 = - a 12

 Matriz Adjunta: Uma matriz quadrada A, denomina-se matriz adjunta de A, a


t

transposta da matriz dos cofatores de A, isto , adj A = A .


A matriz adjunta denotada por A 1 =

1
. adj A.
det(A)

O Teorema de Laplace, diz que o determinante de uma matriz quadrada de


ordem n 2, igual a soma dos produtos dos elementos de uma fila (linha ou
coluna) pelos respectivos cofatores. Logo tm-se que:

a11

a12

a13 | a11

a12

det A = a 21

a 22
a 32

a 23 | a 21
a 33 | a 31

a 22
a 32

a 31

= a11.a22 .a33 . + a12 .a23 .a31. + a21.a32 .a13 . a13 .a23 .a31. a12 .a21.a33 . a23 .a32 .a11

= = a11.(a22 .a33 . a23 .a32 .) + a12 (a21.a33 . a23 .a31.) + a13 .(a21.a32 . a22 .a31.),
Pode-se escrever:

a22
det A = a11
a32

a23
a
a
a
a
a12 21 23 a13 21 22 ,

a33
a31 a33
a31 a32

193

Ou ainda det A = a11 A11 a12 A12 + a13 A13 , onde Aij a submatriz obtida
retirando-se a i-sima linha e a j-sima coluna.
Se A ij = (

i+ j
1)

A ij ,obtem-se a expresso:

det A = a 11 11 + a 12 12 + a 13 13 .
Para matrizes de ordem n, tem-se:
n

det(A) n = a 11 11 + a 12 12 + a 13 13 + ... + a 1n in = a ij . ij = a ij (1) i + j A ij .


j=1

O nmero ij = (1) i + j A ij chamado de Cofator.


Com estes cofatores pode-se formar uma nova matriz A , denominada matriz
dos cofatores de A.

[ ], no qual ij = (1) i+ j A ij .

A = A ij

1 0 2
D 1 = 0 3 2
1 5 5
Aplicando Laplace na coluna 1, se obtm o resultado:
D 1 = 1(-1)

1 + 1

3 2
5 5

+ 0(1) 2 +

0 2
5

+ 1(1) 3

+ 1

0 2
3

D 1 = 1.(1).5 + 0.(-1).10 + 1.1.6 5 + 0 + 6 11


D 1 = 11
Outra forma de encontrar o determinante atravs da Regra de Sarrus:
Esta regra utilizada para calcular determinante de 3 ordem.
1) Calcular o determinante atravs da regra de Sarrus:
2 3 1
D= 4 1 2
3 2 1

1) Repete-se as duas primeiras colunas direita do determinante:

3 1|

4 1
3 2

2| 4 1
1 | 3 2

2) Multiplicam-se :

194

- os elementos da diagonal principal e os elementos de cada paralela a essa


diagonal, conservando o sinal de cada produto obtido;
- os elementos da diagonal secundria e os elementos de cada paralela a essa
diagonal, invertendo o sinal de cada produto obtido.
Logo:

det D = 2.1.1 + 3.2.(-3) + (-1).4.2 - [(-1).1.(-3)] - [2.2.2] - [3.4.1]


det D = 2 -18 -8 -3 -8 -12
det D = - 47.

Sendo A = 2
3
1

4 1 |

4
5
2

1
2 , determine a matriz inversa de A, se existir.
3

det A = 2 5 2 | 2 5
3 2 3 | 3 2
det A = 15 + 24 4 15 4 + 24
det A = 63 23
det A = 40

Matriz do menor complementar

1
A = 2
3
MC11 =
MC13 =

5 2
2 3

4
5
2

= 15 4 = 11

2 5
3

MC22 =

1 1

MC31 =

4 1

3 3

5 2

1
2
3
MC12 =

2 2
3

MC21 =

4 1

=33=0

MC23 =

1 4

=85=3

MC32 =

= 4 15 = 19

2 3

3 2
1

= 6 6 = 12

= 12 2 = 10
= 2 12 = 10
1

2 2

=2+2=4

195

MC33 =

2 5

= 5 + 8 = 13

11 12 19
M = 10 0
10
3
4
13

Matriz dos Cofatores

11 12 19
M = 10 0
10
3
4
13
A11 = (1)1 + 1.11 = (1) 2 . 11 = 11

A12 = (1)1 + 2 .(12) = (1). (12) = 12

A13 = (1)1 + 3 .(19) = (1) 4 . (19) = 19

A21 = (1) 2 + 1.10 = (1)3 .10 = 10

A22 = (1) 2 + 2 .0 = 0

A23 = (1) 2 + 3 .(10) = (1)5 . (10) = 10

A31 = (1)3 + 1. 3 = (1) 2 . 3 = 3

A32 = (1)3 + 2 . 4 = (1)5 . 4 = 4

A33 = (1)3 + 3 .13 = (1)6 . 13 = 13

11 12 19
C = 10 0
10
3
4 13
Matriz adjunta

11 10 3
= 12
0
4
19 10 13

Matriz inversa
A

A 1

11 10 3
1
=
4
12
0

40
19 10 13
0,275 0,25 0,075
= 0,3
0
0,1
0,475 0,25 0,325

196

Para verificar a existncia da matriz inversa basta aplicar a propriedade:

A 1 . A = I

0,275 0,25 0,075 1 4 1


0,3
0
0,1 . 2 5 2

0,475 0,25 0,325 3 2 3


a11 = (0,275).(1) + (0,25).(2) + (0,075)(3) = 1
a12 = (0,275).(4) + (0,25).(5) + (0,075)(2) = 0
a13 = (0,275).(1) + (0,25).(2) + (0,075)(3) = 0
a21 = (0,3).(1) + 0.(2) + (0,1).(3) = 0
a22 = (0,3).(4) + 0.(5) + (0,1).(2) = 1
a23 = (0,3).(1) + 0.(2) + (0,1).(3) = 0
a31 = (0,475).(1) + (0,25).(2) + (0,325).(3) = 0
a32 = (0,475).(4) + (0,25).(5) + (0,325).(2) = 0
a33 = (0,475).(1) + (0,25).(2) + (0,325).(3) = 1

1 0 0
I = 0 1 0
0 0 1
6.2 Sistemas lineares
toda a equao da forma: a1 x1 + a2 x2 + a3 x3 + ..... + an xn = b, onde

a1 , a2 , a3 ,......, an so nmeros reais que recebem o nome de coeficientes das


incgnitas x1 , x2 , x3 ,......, xn e b um nmero real chamado termo independente.

Sistema linear

Um conjunto finito de equaes lineares da forma:

a11 x1 + a12 x2 + a13 x3 + .... + a1n xn = b1


a x + a x + a x + .... + a x = b
21 1
22 2
23 3
2n n
2

M
M
M
M
M
am1 x1 + am 2 x2 + am3 x3 +.... + amn xn = bm

197

um sistema linear de m equaes e n incgnitas.


Este sistema pode ser escrito na forma matricial:

a11 a12
a
21 a22
.
.

.
.
am1 am 2

.
.
.
.
.

. a1n x1 b1
. a2 n x2. b2
. . . . = .

. . . .
. amm xn bm

ou seja, X = A 1 .B .

Soluo do sistema linear

Chama-se de soluo do sistema a n-upla de nmeros reais ordenados


( r1 , r2 , r3 , .... , rn ) que , simultaneamente, soluo de todas as equaes do
sistema.

6.2.1 Matrizes associadas a um sistema linear

Matriz Incompleta

a matriz A, formada pelos coeficientes das incgnitas do sistema.


Em relao ao sistema:

3x + 3 y z = 4

2 x + 2 y + z = 3 , a matriz incompleta :
x + 5y + z = 0

3 3 1
A = 2 2 1
1 5 1

Matriz Completa

A matriz B, obtida ao acrescentar matriz incompleta uma ltima coluna

198

formada pelos termos independentes das equaes do sistema.


Em relao ao sistema:

3x + 3 y z = 4

2 x + 2 y + z = 3 ,
x + 5y + z = 0

a matriz completa :

3 3 1 4
B = 2 2 1 3
1 5 1 0
Classificao quanto ao nmero de solues de um sistema linear, conforme
paiva (1996).

Conforme Paiva (1995) um sistema linear classificado de acordo com o


nmero de solues que possuir. Este poder ser um sistema possvel e
determinado (SPD), um sistema possvel e indeterminado (SPI) ou um sistema
impossvel (SI).
O SPD aquele sistema que admite uma nica soluo.

x+ y =8
, este sistema tem uma soluo nica, que o par ordenado (3, 5).

2 x y = 1
Dessa forma o sistema possvel, pois tem soluo, e determinado possui
uma soluo nica.
O SPI aquele sistema que admite mais vrias solues.

x+ y =8
, este sistema possui infinitas solues, algumas delas so os pares

2 x + 2 y = 16
ordenados: (0, 8), (1, 7), (2, 6), .......
Dessa forma o sistema possvel, pois tem soluo, e indeterminado possui
infinitas solues.
O SI todo sistema linear que no admite nenhuma soluo.

199

x + y = 10
, neste sistema nenhum par ordenado satisfaz simultaneamente as

y
=
10

equaes.
Dessa forma o sistema impossvel, pois no tem soluo.
determinado (uma nica soluo)
possvel
indeterminado (vrias solues)
Sistema linear

Impossvel (nenhuma soluo)

Figura 83: Resumo dos sistemas lineares.


Fonte: Paiva (1995).

Discusso de um sistema linear

Um sistema linear que possui n equaes e n incgnitas pode ser:

 sistema possvel e determinado, se D = det A 0. Neste caso a soluo nica.


 Sistema possvel e indeterminado, se D = D x1 = D x 2 = D x 3 = .... = D xn = 0, para
n = 2 e para n 3, sendo que esta condio s vlida se no temos equaes
com

coeficientes

das

incgnitas

respectivamente

proporcionais

termos

independentes no-proporcionais. Neste caso o sistema apresenta infinitas


solues.

 Sistema Impossvel, se D = 0 e existe D x1 0, 1 i n. Neste caso o sistema


no tem soluo.

Sistema normal
Um sistema normal quando tem o mesmo nmero de equaes m e de
incgnitas n e o determinante da matriz incompleta associada ao sistema diferente
de zero.
Ou seja, se m = n e det A 0 o sistema normal.

x + y = 5

x y =1
Temos: m = 2, n = 2 m = n (I)

200

1 -1 -1 = -2 portanto det A 0 (II)


1 1

det A = 1

De (I) e (II), conclu-se que o sistema normal.

Regra de cramer

A Regra de Cramer uma forma de resolver um sistema linear. Esta regra


diz que todo o sistema normal tem uma nica soluo dada por: x i =

Dx

onde

i { 1, 2, 3, ...,n}, D = det A o determinante da matriz incompleta associada ao


sistema e D x o determinante obtido atravs da substituio, na matriz incompleta,
i

da coluna i pela coluna formada pelos termos independentes.


x + 2y = 3
1)
3 x 2 y = 7

Temos: m = n = 2
D=

= - 2 - 6 = - 8 0. Como o sistema normal, pode-se utilizar a regra de

3 2

Cramer para resolv-lo.


1 2
Substituindo, na matriz incompleta
, a coluna C 1 pela coluna
3 2

formada pelos termos independentes, tem-se:

Dx =

7 2

= - 6 - 14 = - 20. Substituindo, agora, C 2 pela coluna dos termos

independentes, tem-se:

Dy =

= 7 - 9 = - 2.

20
5
Assim: x = D x =
=
8
2
D

2 1
y = Dy =
=
8 4
D

5 1
Logo, ( x, y ) = , a soluo do sistema dado.
2 4

Pode-se encontrar a soluo do sistema de duas formas: pela forma


matricial e pela regra de cramer, conforme segue.

201

x + 2y z = 1

Encontre as solues do sistema 2 x + y + 4 z = 5


3x + 3 y + z = 2

a) pela forma matricial, X = A1.B

1 2 1 x 1
2 1 4 y = 5


3 3 1 z 2
1 2 1
A = 2 1 4
3 3 1

Determinante de A

2 1 |

det A = 2 1
3 3

4
1

| 2 1
| 3 3

det A = 1 + 24 + 6 + 3 12 + 4 = 0
det A = 26

Matriz do menor complementar

MC11 =
MC13 =
MC22 =
MC31 =
MC33 =

1 4

= 1 12 = 11

3 1

2 1
3

1 1
3

2 1
1
1

4
2

2 1

MC12 =

= 6 3 = 9

MC21 =

=1+ 3 = 4

MC23 =

=8+1= 9

MC32 =

=1+ 4 = 5

11 14 9
M = 5
4
3
9
2
5

2 4
3

2 1
3

= 2 12 = 14

1 2
3 3

=2+3=5

= 3 6 = 3

=42=2

202

Matriz dos cofatores

A11 = ( 1)1 + 1.( 11) = ( 1) 2 . 11 = 11

A12 = ( 1)1 + 2 .( 14) = ( 1). ( 14) = 14

A13 = ( 1)1 + 3 .( 9) = ( 1) 4 . ( 9) = 9

A21 = ( 1) 2 + 1.5 = ( 1) 3 . 5 = 5

A22 = ( 1) 2 + 2 .4 = ( 1) 4 .4 = 4

A23 = ( 1) 2 + 3 .(3) = ( 1)5 . ( 3) = 3

A31 = ( 1) 3 + 1.9 = ( 1) 2 . 9 = 9

A32 = ( 1) 3 + 2 . 2 = ( 1)5 . 2 = 2

A33 = ( 1) 3 + 3 . 5 = ( 1) 6 . 5 = 5

11 14 9
C = 5 4
3
9 2 5

11 5 9
C = 14
4 2
9 3
5
t

11 5 9
1
A =
14
4 2

26
9 3
5
1

X = A1.B

0,423 0,192 0,346 1


A = 0,538
0,153 0,07 .5 .
0,346 0,115 0,192 2
1

As solues encontradas para o sistema so:


x = (-0,423).(1) + (-0,192).(5) + (0,346).(2)
x = -0,69
y = (0,538).(1) + (0,153).(5) + (-0,07).(2)
y = 1,16
z = (-0,346).(1) + (0,115).(5) + (0,192).(2)
z = 0,61

b) pela regra de cramer.

1 2 1
A = 2 1 4
3 3 1
1

2 1 |

A = 2 1
3 3

4
1

| 2 1
| 3 3

det D = 1 + 24 + 6 + 3 12 + 4 = 0
det D = 26.
Para calcular D x , substitui-se a primeira coluna de A pelo vetor B:

203

1 2 1 | 1 2

Dx = 5 1
2 3

4
1

| 5 1
| 2 3

D x = 1 + 16 15 + 2 12 10
D x = -18
Para calcular D y , substitui-se a segunda coluna de A pelo vetor B:

1 1 |

Dy = 2 5
3 2

4
1

| 2 5
| 3 2

D y = 5 + 12 + 4 + 15 8 + 2
D y = 30.

Para calcular D z , substitui-se a terceira coluna de A pelo vetor B:

2 1 |

Dz = 2 1 5 | 2 1
3 3 2 | 3 3
D z = 2 + 30 6 3 15 + 8
D z = 16.
As solues encontradas para o sistema so:

x =

y=
z=

Dx
18
=
= - 0,69
D
26
Dy
D

30
1,15
26

Dz
16
=
= 0,61.
D
26

Como se pode observar os dois mtodos so equivalentes, isto , possuem


as mesmas solues.

204

6.3 Representao vetorial


Vetores geomtricos conforme valentim (2000)

Os vetores podem ser representados geometricamente como segmentos de


reta orientados ou como flechas nos espaos bi ou tri-dimensionais. A direo e o
sentido da flecha indicam a direo e o sentido do vetor. A cauda da flecha
chamada de ponto inicial do vetor e a ponta da flecha chamada de ponto final.
Quando se estiver tratando de vetores os nmeros sero chamados de escalares.
Os vetores com o mesmo comprimento, direo e sentido, so ditos equivalentes.
Como se quer que o vetor seja determinado somente pela sua direo, comprimento
e sentido considera-se vetores equivalentes como sendo iguais mesmo quando
estiverem localizados em posies diferentes (RORRES, 2001).

Representao vetorial de um exemplo prtico

Imagine os resultados que se pode obter utilizando dados quantitativos. Por


exemplo, os dados referentes a trs espcies de vegetais, chamadas de Vg 1 , Vg 2 e

Vg 3 , sendo realizadas em duas coletas, A1 e A2 conforme Tabela 24. Seja a o


nmero de indivduos encontrados de cada espcie e em cada estao, logo a11
corresponder ao nmero de indivduos da primeira espcie, na primeira coleta, a12
corresponder ao nmero de indivduos da segunda espcie, na segunda coleta e
assim sucessivamente.
Tabela 24: Dados multidimensionais
Indivduos

A1

A2

Vg 1

a11

a12

Vg 2

a 21

a 22

Vg 3

a 31

a 32

205

Generalizando esses dados para tabelas de n linhas e p colunas, o nmero

a ij de indivduos ser posicionado na tabela pelos ndices i e j sendo i {1, n} e

j {1, p} .
Conforme Valentin esses dados podem ser representados de duas maneiras
diferentes:
a) no espao das coletas (Figura 84a), plotando os pontos representativos de cada
espcie a partir dos valores de a ij num sistema de dois eixos-coletas ortogonais A1
e A2 ;
b) no espao espcie (Figura 84b ), plotando os pontos representativos de cada
coleta a partir dos valores de a ij num sistema de trs eixos-espcie ortogonais

Vg 1 , Vg 2 e Vg 3 .
Vg 2

A2

a32
a 22

a 22

Vg 2

A2

Vg 3

a12

Vg 1

a21

a31

a11

a
a12

a32
A1

(a)

a31
Vg 3

A1

a11

Vg 1

(b)

Figura 84: Representao vetorial das espcies nos espaos das estaes (a) e das estaes no
espao das espcies (b)

Como observa-se na Figura 84 a cada ponto posicionado, no espao bi ou


tridimensional, associa-se um vetor. Na Figura 84a os vetores espcie so
representados por Vg 1 , Vg 2 e Vg 3 formados de dois elementos (so iguais as suas
respectivas abundncias nas duas estaes) e os vetores-estaes na Figura 84b,
A1 e A2 formados por trs elementos (so iguais as suas respectivas abundncias

nas espcies) (VALENTIN, 2000).

206

Operao com vetores conforme valentin (2000)

Multiplicao de um vetor por um escalar


Seja um vetor-espcie A2 a21 ,a22 . Multiplicando esse vetor por um escalar,
,

por exemplo 2, resultar em outro vetor A2 2 a21 , 2 a22 , cujos elementos foram
multiplicados pelo escalar 2 na Figura 85.

A2

A2,

2a 22
a 22

a 21

2a 21

A1

Figura 85: Multiplicao de um vetor por um escalar.

Adio de dois vetores


Se adiciona-se as abundncias de duas espcies representadas pelos
vetores A1 a11 , a12 e A2 a21 ,a22 , o resultado ser um vetor A3 , cujos elementos sero
iguais

soma

dos

elementos

que

( a11 + a 21 , a12 + a 22 ) como mostra a Figura 86.

A2

(a12 + a 22 )

a 22

Vg 3
Vg 2

a12

Vg 1

a21

a11

A1

(a12 + a 22 )

Figura 86: Adio de dois vetores.

correspondem

aos

dois

vetores:

207

Produto escalar e comprimento de dois vetores

O produto escalar entre dois vetores, neste exemplo das espcies vegetais
representado pelos vetores Vg 1 x11 , x12 e

Vg 2 x 21 , x22 . O produto escalar desses dois

vetores o nmero, que obtido atravs da soma dos produtos dos respectivos
elementos. J o produto escalar de um vetor por ele mesmo corresponde ao seu
comprimento, ou seja, a sua norma.
Em anlises que englobam diversas variveis e a representao vetorial
simultnea exige que todos os vetores representativos dessas variveis tenham
2
2
norma igual a 1, que representada por Ag 2 = a 21
+ a 22
, conforme o Teorema de

Pitgoras. Existe um caso particular, no qual a norma do vetor igual a 1, sendo que
nestas circunstncias os elementos respeitam a igualdade cos 2 + sen 2 = 1 , como
pode-se observar na Figura 87.

A2
r
u

a2
1

a1

A1

Figura 87: Vetor U de norma 1

Ortogonalidade entre dois vetores

Vetores perpendiculares so tambm chamados vetores ortogonais. Por um


teorema dois vetores no-nulos so ortogonais se seu produto escalar zero
(u.v = 0).
Ou seja, o cosseno do ngulo entre dois vetores igual a razo entre o
produto escalar e o produto de suas normas. Essa relao pode ser aplicada em
estatstica. Sejam duas espcies de vegetais A1 e A2 , contadas e n amostras, e de
mdia m1 e m2 . Supe-se os efetivos a centrados, na qual cada espcie tem a

208

seguinte representao vetorial

A1 com os elementos (a11 m1 , a12 m1 ) e

(a 21 m 2 , a 22 m 2 ) .
A norma de cada vetor dada por:

A1 =

(a11 m1 ) 2 + (a12 m1 ) 2
Se A1 e A2 so dois vetores no nulos, fazendo um ngulo entre eles tem-

se a relao:
cos =

A1 . A2
A1 . A2

Propriedade:

Dois vetores so ortogonais se o produto interno entre eles zero.

6.4 Distncia euclidiana

Considerando o caso mais simples, no qual existem n indivduos, onde cada


um dos quais possuem valores para p variveis, a distncia euclidiana entre eles
obtida mediante o teorema de Pitgoras para um espao multidimensional. Esta
distncia uma medida de semelhana e pode ser expressa pela distncia D entre
as extremidades de dois vetores, como mostra a Figura 88.

x A2

r
A

D AB

xB2
x A1

x B1

Figura 88: Distncia euclidiana


Fonte: Valentin (2000).

X1
D AB entre dois vetores A e B.

A distncia euclidiana calculada com base no teorema de Pitgoras:

DA,B = (xA1 xB1 )2 + (xA2 xB2 )2


ou ainda, generalizando para duas amostras contendo m espcies, a distncia
euclidiana dada por:

209

(x

D A, B =

A, j

x B, j )

j =1

6.5 Autovalores e autovetores de uma matriz


O objetivo dos pesquisadores quando aplicam tcnicas multivariadas em um
determinado conjunto de dados evidenciar os principais fatores que regem a
estrutura dos mesmos. O pesquisador busca descrever essa estrutura atravs de um
grande nmero de variveis que serviro de base de dados para a extrao desses
fatores quando forem aplicadas as tcnicas multivariadas. Esses fatores iro explicar
aspectos diferentes desse conjunto de dados, e por isso devero ser independentes,
isto , representados por eixos ortogonais, produto escalar igual a zero.
A soluo deste problema, que est na base das anlises ditas fatoriais,
consiste em passar de uma matriz A de coeficientes de dependncia (correlao ou
covarincia) entre variveis para uma matriz diagonal D, onde todos os coeficientes
(VALENTIN, 2000).
so nulos, exceto os da diagonal principal

A operao abaixo chamada de diagonalizao da matriz A.

a11
a
12
.
A=
.
.

a m1

a12
a 22
.
.
.
a m2

.
.
.
.
.
.

.
.
.
.
.
.

. a1m
. a 2 m
.
.

.
.
.
.

. a mm

0
0
D =
.
.

. .
. .

. .

. .

. .

. .

0
.

.
.

Os termos da diagonal principal da matriz D so os autovalores (razes


caractersticas) da matriz A, que ser dado pela equao:

Ax j = j X j ou A j I X j = 0
x j so os autovetores da matriz A, sendo que a cada autovalor j existe um
autovetor x j correspondente sendo que j (1, m ).
e um vetor X no nulo
Seja A uma matriz quadrada, se existe um escalar

tal que:

Ax = x,

210

chamado de autovalor de A e X o autovetor correspondente. Todos os


ento

(alguns com repetio) podem ser obtidos resolvendo a equao


autovalores
i
caracterstica de A, isto :
I) = 0
det ( A

O conjunto de todos os autovalores chamado de espectro, decomposio


espectral, entre outros nomes.
um autovalor, qualquer soluo no trivial de (A -
I)X = 0 um
Se
.
autovalor de A correspondente a

Propriedades:
 Se a matriz no singular, ento todos os seus autovalores so diferentes de
zero.

 Se a matriz simtrica, ento todos os seus autovalores so nmeros reais.


 Os autovalores de uma matriz definida positiva so todos positivos.
Seja

4 5
A=

2 3

matriz

de

associao

entre

duas

variveis.

Transformar-se- numa matriz diagonal D, sendo que os termos da diagonal


principal correspondem aos autovalores da matriz A, e que para cada autovalor,
existe um autovetor associado, neste caso os autovalores so representados por

x1 e x 2 . Encontre os autovalores e autovetores da equao matricial:


4 5 x1
x1
2 3. x = x

2
2
x
x ) 5x = 0
) x 5x = 0
4 x1 5 x 2 =
( 4 x
( 4
1
1
2
1
2
1

2 x1 3 x 2 = x 2
2 x1 (3 x 2 x 2 ) = 0
2 x1 (3 + ) x 2 = 0

Pode-se observar que no sistema x1 = x 2 = 0 , isto , admite soluo nica,


no sendo este resultado satisfatrio para o trabalho. Para se obter outras solues
deve-se fazer o determinante da matriz dos coeficientes igual a 0:

)
(3 +

=0

) (3 +
) + 10 = 0
(4 -
+ 3
+
2 + 10 = 0
-12 4

211

2 -
- 2 = 0 esta equao denominada de polinmio caracterstico.

Os autovalores (razes caractersticas) so obtidos da equao:

= b

(b) 2 4(a)(c)
2(a)

=1

( 1) 2 4(1)( 2)
( 2)(1)

=1 9
=13

2
2
= -1

1
= 2.

Pode-se observar que a soma dos autovalores corresponde ao trao e ao


determinante da matriz A.

+
+ .... +
= trao da matriz A. Ou seja,

1
2
p
-1 + 2 = 1 = trao da matriz A.

).(
) ....(
) = determinante da matriz A.
(
1
2
p
(-1).(2) = -2
Deve-se observar tambm que a adio de duas razes caractersticas 1
que nada mais que o segundo termo da equao.
Com a diagonalizao da matriz A obteve-se a matriz diagonal
1 0
D=
, das razes caractersticas.
0 2
= -1 dado pela equao
O clculo dos autovetores associados a
1

caracterstica dos autovetores que

S 1 I X i = 0 ou mediante sistema,

r
.
substituindo o autovalor. Existe um vetor X para cada valor de
r
Os autovetores X so calculados pela equao matricial:

4 5
1 0 x1 0
2 3 (1) 0 1 x = 0

2
5
4 + 1
2
3 + 1

x1 0
x = 0
2

212

5 x1 5 x 2 = 0

2 x1 2 x 2 = 0
ou ainda:
) x 5x = 0
( 4
1
2
, substituindo o autovalor pelo valor encontrado no mesmo

(
3
+

)
=
0
x
x
2
1

tem-se:

(4 (1)) x1 5 x 2 = 0 5 x1 5 x 2 = 0

, ou seja, os sistemas so equivalentes.

2 x1 (3 + (1)) x 2 = 0
2 x1 2 x 2 = 0
I = 0
Este sistema de equaes indeterminado, em virtude de S
5 5
2 2

=0

Ou ainda por x1 = x 2 = 0 , ou seja, indica que o vetor passa pela origem.


Devido a isso pode-se, deixar uma das equaes, neste caso a segunda, e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( x 2 = 1) , para se
obter o segundo ponto do vetor. Dessa forma tem-se:
5 x1 - 5(1) = 0
5 x1 - 5 = 0
5 x1 = 5

x1 = 1, logo o primeiro autovetor


r
1
X1 =
1
= 2:
J o segundo autovetor dado pela outra raiz
2

S 2 I X 2 = 0

4 5
1 0 x1 0
2 3 (2) 0 1 x = 0

2
5 x1 0
4 2
=
2
3 2 x 2 0

2 x1 5 x 2 = 0

2 x1 5 x 2 = 0
ou ainda:

213

) x 5x = 0
( 4
1
2
, substituindo o autovalor pelo valor encontrado no mesmo

2 x1 (3 + ) x 2 = 0

tem-se:

(4 2) x1 5 x 2 = 0 2 x1 5 x 2 = 0

, ou seja, os sistemas so equivalentes.

2 x1 (3 + 2) x 2 = 0
2 x1 5 x 2 = 0
De forma anloga ao primeiro autovetor, atribui-se um valor para ( x 2 = 1 ),
logo:
2 x1 - 5(1) = 0
2 x1 - 5 = 0
2 x1 = 5

x1 = 2,5, logo o segundo autovetor :


r
2,5
X2 =
1
1 2,5
Dessa forma a matriz dos autovetores X =
.
1 1

214

7 BIBLIOGRAFIA
BOLDRINI, C. FIGUEIREDO, W. lgebra Linear. So Paulo: Harba, 1986.
BUSSAB, W. O.; MIAZAKI, . S.; ANDRADE, D. F. Introduo anlise de
agrupamentos: In: SIMPSIO BRASILEIRO DE PROBABILIDADE E ESTATSTICA,
9.,1990, So Paulo. Resumos...So Paulo, 1990.
CRUZ, C. D. Aplicao de algumas tcnicas multivariadas no melhoramento de
plantas. 1990. Tese (Doutorado) ESALQ, Piracicaba, 1990.
CATTEL, R. B. The scree test for the number of factors. In: ---. Multivariate
behavior research. v.1, p. 245-276, 1966.
FERREIRA, D. F. Anlise multivariada. Lavras, 1996.
HAIR, J. F.;ANDERSON,et al. Anlise multivariada de dados. 5. ed. Porto Alegre,
2005.
JACKSON, J.E. Principal componets and factor analysis: Part I - principal
componets. Journal of Quality Technology. v.12, n.4, p.201-213, Oct. 19..
JOHONSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 3.
ed. New Jersy: Prentice-Hall, 1992.
LOPES, L. F. D. Anlise de componentes principais confiabilidade de
sistemas complexos. 2001. Tese (Doutorado Engenharia de Produo)
Universidade Federal Santa Catarina, 2001.
MAGNUSSON, W. E.; MOURO, G. Estatstica sem matemtica: a ligao entre
as questes e a anlise. Curitiba: 2003.
MALHOTRA, N. K. Pesquisa de marketing: uma orientao aplicada. Porto Alegre:
Bookman, 2001.
MANLY, B. F. J. Multivariate statistical methods: a primer. London: Chapman and
Hall, 1986.
MARDIA, K.V.; KENT, J. T. i BIBBY, J. M. Multivariate analysis. London: Academic,
1979.
NETO, M. M. J. Estatstica multivariada. Revista de Filosofia e Ensino. 9 maio
2004. Disponvel em: http://www.criticanarede.com/cien_estatistica.html. Acesso em:
9 maio 2004.
PLA, L. E. Analysis multivariado: Mtodo de componentes principales.
Washington: Secretaria General de la Organizacin de Los Estados Americanos, ,
D. C. 1986.
PAIVA, M. Matemtica 2. So Paulo: Moderna, 1995.

215

PEREIRA, J. C. R. Anlise de dados qualitativos: estratgias metodolgicas para


as cincias da sade, humanas e sociais. So Paulo: Edusp, 2001.
REGAZZI, A. J. INF 766 - Anlise multivariada. Viosa: Universidade Federal de
Viosa, Centro de Cincias Exatas e Tecnolgicas. Departamento de Informtica,
2001. 166p. Apostila de disciplina.
RORRES, A. lgebra Linear com aplicaes. Porto Alegre: Bookman, 2001.
REIS, E. Estatstica multivariada aplicada. Lisboa, 1997.
SOUZA, A. M. Monitorao e ajuste de realimentao em processos produtivos
multivariados. 2000.Tese (Doutorado Engenharia de Produo) Universidade
Federal Santa Catarina, 2000.
VALENTIN, J. L. Ecologia numrica: uma introduo anlise multivariada de
dados ecolgicos. Rio de Janeiro: Intercincia, 2000.
i

Você também pode gostar