Escolar Documentos
Profissional Documentos
Cultura Documentos
VICINI - Analise Multivariada Da Teoria A Pratica PDF
VICINI - Analise Multivariada Da Teoria A Pratica PDF
TEORIA PRTICA
por
Lorena Vicini
Orientador: Adriano Mendona Souza
2005
Todos os direitos autorais reservados a Lorena Vicini e Adriano Mendona Souza. A
reproduo de partes ou do todo deste trabalho s poder ser com autorizao por
escrito do autor.
Fone (0xx) 54 9961-8410 ou (0xx) 55 99743167;
End. Eletr: lorenavicini@pop.com.br, amsouza@smail.ufsm.br
SOBRE OS AUTORES
Os autores so formados em matemtica, com especializao em Estatstica
e Modelagem Quantitativa no Departamento de Estatstica UFSM, Adriano
(amsouza@smail.ufsm.br) realizou o Mestrado em Engenharia de Produo
PPGEP - UFSM, a longo tempo atrs, e doutorado tambm em Engenharia de
Produo na UFSC e atuou como pesquisador na Texas A&M University Texas.
Lorena (lorenavicini@pop.com.br) est realizando o curso de Mestrado no
PPGEP UFSM e tem perceptivas de continuar se aprimorando. Os dois so
colegas de trabalho no Departamento de Estatstica e desenvolvem a maioria de
suas pesquisas com a aplicao das tcnicas multivariadas. Os dois pertencem a
dois grupos de pesquisa que so o Ncleo de Estatstica Aplicada e Ncleo de
Estudos do Agro negcio Brasileiro.
anlise
fatorial
de
componentes
principais,
voltado
Os autores
NDICE
Captulo 1
Introduo
Captulo 2
Apresentando os mtodos
13
13
21
27
Captulo 3
33
Compreendendo as tcnicas
41
Captulo 4
41
42
49
52
58
59
78
95
95
Captulo 5
principais ACP
106
Realizando pesquisas
143
Anexo
183
183
183
186
Captulo 7
196
197
204
208
209
Bibliografia
215
1 INTRODUO
A anlise multivariada um vasto campo, no qual at os estatsticos
experientes movem-se cuidadosamente, devido esta ser uma rea recente
da cincia, pois j se descobriu muito sobre esta tcnica estatstica, mas
muito ainda est para se descobrir (MAGNUSSON, 2003).
Na vida, sempre que for necessrio tomar uma deciso, deve-se levar em
conta um grande nmero de fatores. Obviamente, nem todos esses pesam da
mesma maneira na hora de uma escolha. s vezes, por se tomar uma deciso
usando a intuio, no se identifica, de maneira sistemtica, esses fatores, ou essas
variveis, ou seja, no so identificadas quais as variveis que afetaram a tomada
de deciso.
Quando se analisa o mundo que nos cerca, identifica-se que todos os
acontecimentos, sejam eles culturais ou naturais, envolvem um grande nmero de
variveis. As diversas cincias tm a pretenso de conhecer a realidade, e de
interpretar os acontecimentos e os fenmenos, baseadas no conhecimento das
variveis intervenientes, consideradas importantes nesses eventos.
Estabelecer relaes, encontrar, ou propor, leis explicativas, papel prprio
da cincia. Para isso, necessrio controlar, manipular e medir as variveis que so
consideradas relevantes ao entendimento do fenmeno analisado. Muitas so as
dificuldades em traduzir as informaes obtidas em conhecimento, principalmente
quando se trata da avaliao estatstica das informaes.
Os mtodos estatsticos, para analisar variveis, esto dispostos em dois
grupos: um que trata da estatstica, que olha as variveis de maneira isolada a
estatstica univariada, e outro que olha as variveis de forma conjunta a estatstica
multivariada.
At o advento dos computadores, a nica forma de se analisar as variveis
era de forma isolada, e a partir dessa anlise fazer inferncias sobre a realidade.
Sabe-se que essa simplificao tem vantagens e desvantagens. Quando um
fenmeno depende de muitas variveis, geralmente esse tipo de anlise falha, pois
no basta conhecer informaes estatsticas isoladas, mas necessrio, tambm,
conhecer a totalidade dessas informaes fornecidas pelo conjunto das variveis e
suas relaes. Quando as relaes existentes entre as variveis no so
10
11
12
13
2 APRESENTANDO OS MTODOS
Neste captulo, ser apresentada a reviso de literatura, dividida em itens,
servindo de suporte para o desenvolvimento das tcnicas apresentadas. No item
2.1, ser discutida a anlise de agrupamentos. No item 2.2, ser apresentada de
anlise de componentes principais. No item 2.3, apresenta-se a anlise fatorial,
abordando, os seus aspectos metodolgicos e suas aplicaes.
Ela
no
faz
distino
entre
variveis
dependentes
14
15
informao, ocasionando uma pequena perda da mesma, pelo fato de ser uma
sntese. Embora acontea essa perda de informao, esse grfico de grande
utilidade para a classificao, comparao e discusso de agrupamentos.
H duas formas de se representar um dendograma: horizontal e
verticalmente.
No dendograma horizontal, as linhas verticais, ou o eixo y, representam os
grupos unidos por ordem decrescente de semelhana, e a posio da reta, na
escala ou o eixo x, indica as distncias entre os grupos que foram formados. O
dendograma lido de cima para baixo, quando for feito na forma horizontal.
Dendograma das variveis
Menor distncia euclidiana
Var1
Var5
Var2
Var3
Var8
Var6
Var7
Var4
Var9
10
20
30
40
50
60
70
16
que formado pelas variveis Var 1, Var 5, Var 2, Var 3, Var 8, Var 6, Var 7e Var 4,
j o segundo grupo formado apenas pela Var 9.
No dendograma vertical, a leitura feita da direita para esquerda, no qual as
linhas verticais, ou o eixo y, indicam as distncias entre os grupos foram formados, e
a posio da reta na escala, ou o eixo x, representa os grupos unidos por ordem
decrescente de semelhana, conforme Figura 02.
A interpretao desta Figura 02 anloga Figura 01, apenas muda no eixo
em que as variveis esto representadas.
Dendograma das variveis
menor distncia euclidiana
70
60
50
40
30
20
10
0
Var9
Var4
Var7
Var6
Var8
Var3
Var2
Var5
Var1
17
Formulao do problema
18
Z ij =
X ij
Xj
(2.1)
Sj
19
Indivduos
Variveis
X1
X2
X3
X4
...
Xj
...
Xp
X11
X12
X13
X14
...
X1j
...
X1p
X21
X22
X23
X24
...
X2j
...
X2p
X31
X32
X33
X34
...
X3j
...
X3p
Xi1
Xi2
Xi3
Xi4
...
Xij
Xip
Xn1
Xn2
Xn3
Xn4
...
Xnj
...
Xnp
20
21
Distncia Euclidiana
22
d ii ,
p
2
= ( X ij X i, j ) 2
j =1
(2.2)
Figura
- Distncia
mdia.
Figura
04 4
- Distncia
mdia
( X ij X i , j , ) 2
d =
X ij
j =1
(2.3)
Distncia de Mahalanobis D2
23
) (
r
r ,
r
r
1
D = X i X i, S X i X i,
2
ii ,
em que :
r
,
X i = X i1 , X i 2 , ..... , X ip
r
X i , = X i , 1 , X i , 2 , ..... , X i , p
(2.4)
r
r
X i e X i , , so os vetores p-dimensionais de mdias i e i , , respectivamente, com
i i , e i , i , = 1, 2, ...., n.
onde S a matriz de disperso amostral comum a todas as unidades que, no caso
de delineamentos experimentais, trata-se da matriz de varincias e covarincias
residuais.
Embora Dii2, seja o quadrado da distncia de Mahalanobis, ser chamado de
distncia de Mahalanobis.
Admitindo-se distribuio multinormal p-dimensional, e homogeneidade na
matriz de varincia-covarincia nas unidades amostrais, pode-se chamar distncia
generalizada de Mahalanobis.
Coeficiente de Pearson
24
i) S(R,T) = S(T,R);
ii) S ( R, T ) 0 ;
iii) S(R,T) cresce medida em que a semelhana entre R e T cresce.
O coeficiente de Pearson, entre os objetos R e T, dado pela seguinte
equao:
X
rii , =
ij
X i, j
1
( X ij )( X i , j )
p j
j
2
2
1
1
X ij2 X ij X i2, j X i , j
p j
p j
j
j
(2.5)
.
25
de
clculo
depende
do
mtodo
de
aglomerao
escolhido
(VALENTIN, 2000).
No agrupamento divisivo, todos os objetos partem de um grupo gigante, e
estes so subdivididos em dois subgrupos, de tal forma que exista o mximo de
semelhana entre os objetos dos mesmos subgrupos e a mxima dissimilaridade
entre elementos de subgrupos distintos. Esses subgrupos so, posteriormente,
26
procedimento
bsico,
de
todos
os
mtodos
aglomerativos
de
27
28
29
anlise que encontrava estas componentes e que maximizava a varincia dos dados
originais foi denominada por Hotelling de Principal Component Analysis
(HOTELLING, 1933).
Atualmente, um dos principais usos da ACP ocorre quando as variveis so
originrias de processos em que diversas caractersticas devem ser observadas ao
mesmo tempo. Esta tcnica vem sendo estudada por autores como MORRISON
(1976), SEBER (1984), REINSEL (1993), JACKSON (1980, 1981) e JOHNSON &
WICHERN (1992, 1998).
A idia central da anlise baseia-se na reduo do conjunto de dados a ser
analisado, principalmente quando os dados so constitudos de um grande nmero
de variveis inter-relacionadas. Conforme Regazzi (2001, p.1), procura-se
redistribuir a variao nas variveis (eixos originais) de forma a obter o conjunto
ortogonal de eixos no correlacionados. Essa reduo feita transformando-se o
conjunto de variveis originais em um novo conjunto de variveis que mantm, ao
mximo, a variabilidade do conjunto. Isto , com a menor perda possvel de
informao. Alm disso, esta tcnica nos permite o agrupamento de indivduos
similares mediante exames visuais, em disperses grficas no espao bi ou
tridimensional, de fcil interpretao geomtrica. A reduo de dimensionalidade
chamada de transformao de karhunnen-Love, ou Anlise de Componentes
30
em
termos
da
variao
total,
contida
nos
dados
iniciais,
(REGAZZI, 2001).
O esquema descrito na Figura 06 servir de base para a aplicao da ACP.
X1
X2
X3
M atriz
R
ou
:
:
Encontrar
Encontrar
auto
valores
auto
vetores
Y1
Y2
Seleo
das
N ovas
V ariveis
Xp
:
:
Y3
Yp
P - com ponentes
P rincipais
P - variveis
CP2
X2
CP1
-1
2
X
=K
' X
(elipside)
X1
31
Xj
...
Xp
X11
X12
X13
X14
...
X1j
...
X1p
X21
X22
X23
X24
...
X2j
...
X2p
X31
X32
X33
X34
...
X3j
...
X3p
Xi1
Xi2
Xi3
Xi4
...
Xij
Xip
Xn1
Xn2
Xn3
Xn4
...
Xnj
...
Xnp
32
, X ) , onde
, X ) , (
, X ) , ... , (
amostra analisada, sero representados por (
1
1
2
2
p
p
0, e fornecero o i-simo componente principal dado por:
...
1
2
p
r
r
r
r
Yi = xi X = x1i X 1 + x 2i X 2 + ... + x pi X p , onde i = 1, 2, ... , p.
Com as escolhas de que:
i = 1, 2, ...., p
33
Uma tabela com a contribuio de cada varivel para cada componente (factor
34
Os fatores podem ser denominados como um constructo, que pode ser uma
varivel no observada, escalas, itens, ou uma medida de qualquer espcie. Na
anlise, fatores explicam a varincia das variveis observadas, tal como se revelam
pelas correlaes entre as variveis que esto sendo analisadas.
Um dos mtodos mais conhecidos, para a extrao dos fatores, feito por
meio da anlise de componentes principais, que baseado no pressuposto que se
r
pode definir X vetores estatisticamente no correlacionados, a partir de
combinaes lineares dos p indicadores iniciais.
A ACP permite transformar um conjunto de variveis iniciais, correlacionadas
entre si, num outro conjunto de variveis no correlacionadas (ortogonais), que so
as componentes principais, que resultam das combinaes lineares do conjunto
inicial.
Tanto a anlise de componentes principais, quanto a anlise fatorial, so
tcnicas da anlise multivariada, que so aplicadas a um conjunto de variveis, para
descobrir quais dessas so mais relevantes, na composio de cada fator, sendo
estes independentes um dos outros. Os fatores, que so gerados, so utilizados de
maneira representativa do processo em estudo e utilizados para anlises futuras.
O objetivo da ACP no explicar as correlaes existentes entre as variveis,
mas encontrar funes matemticas, entre as variveis iniciais, que expliquem o
mximo possvel da variao existente nos dados e permita descrever e reduzir
essas variveis. J a AF explica a estrutura das covarincias, entre as variveis,
utilizando um modelo estatstico casual e pressupondo a existncia de p variveis
no-observadas e subjacentes aos dados. Os fatores expressam o que existe de
comum nas variveis originais (REIS, 1997).
A AF uma tcnica que aplicada para identificar fatores num determinado
conjunto de medidas realizadas, sendo utilizada, tambm, como uma ferramenta na
tentativa de reduzir um grande conjunto de variveis para um conjunto mais
significativo, representado pelos fatores. Esse mtodo determina quais variveis
pertencem a quais fatores, e o quanto cada varivel explica cada fator.
Essas duas tcnicas, ACP e AF, so sensveis a correlaes pobres entre
variveis, pois, neste caso, as variveis no apresentaro uma estrutura de ligao
entre elas. Logo, a correlao ser fraca e prejudicar as anlises, inviabilizando o
uso da tcnica, que tem como objetivo principal o estudo de conjuntos de variveis
correlacionadas.
35
36
intervalo, ento as variveis podem ser utilizadas para realizar a AF. Para encontrar
o valor do KMO, utiliza-se a expresso:
(2.6)
2
ij
KMO =
2
ij
r
i
a
i
2
ij
=
= ..... =
(PEREIRA 2001, p. 124 e 125).
1
2
P
37
e tero, por isso, traos comuns com ACP. O que diferencia a ACP que ela trata,
exclusivamente, de variveis numricas, que desempenham, todas, o mesmo papel,
enquanto a anlise de correspondncia trata de variveis qualitativas, nas anlises
cannicas e discriminante as variveis so repartidas em grupos bem distintos
(BOUROCHE & SAPORTA, 1982).
A AF possui, como princpio, cada varivel pode ser decomposta em duas
partes: uma parte comum e uma parte nica. A primeira a parte da sua variao
partilhada com outras variveis, enquanto a segunda especfica da sua prpria
variao. Dessa forma, uma diferena entre os dois mtodos parte do montante de
varincia analisada, na qual a ACP considera a variao total presente no conjunto
das variveis originais. Na AF, s retida a variao comum, partilhada por todas as
variveis (REIS, 1997).
A base fundamental para a anlise de fator comum ACP e AF que as
variveis escolhidas podem ser transformadas em combinaes lineares de um
conjunto de componentes (fatores) hipotticos, ou despercebidos. Os fatores podem
ser associados com uma varivel individual (fatores nicos), ou, ainda, associados
com duas ou mais das variveis originais (fatores comuns). As cargas so
responsveis por relacionar a associao especfica entre os fatores e as variveis
originais. Logo, pode-se concluir que o primeiro passo encontrar as cargas e a
soluo para os fatores, que aproximaro a relao entre as variveis originais e
fatores encontrados, sendo que as cargas so derivadas dos autovalores, que esto
associados s variveis individuais.
Para ter-se uma melhor visualizao das variveis, que melhor representem
cada fator, realizada uma rotao nos eixos, pois a AF busca colocar os fatores
em uma posio mais simples, com respeito s variveis originais, que ajudam na
interpretao de fatores. Essa rotao coloca os fatores em posies em que sero
associadas s s variveis relacionadas distintamente a um fator. Existem vrias
rotaes que podem ser realizadas para a matriz fatorial, varimax, quartimax e
equimax. So todas as rotaes ortogonais, enquanto as rotaes oblquas so noortogonais. A rotao varimax rotation busca minimizar o nmero de variveis com
altas cargas num fator, ou seja, maximiza a varincia da carga e , tambm, o mais
utilizado. Conforme Pereira (2001), a rotao da matriz no afeta a inrcia
(comunalidades) das variveis nem a percentagem de variaes explicadas pelos
fatores.
38
39
modelo construdo pela AF, ou seja, o quanto cada varivel participa na formao
da outra. Nas communality, os valores mais altos so os mais importantes para
anlise.
40
41
3 COMPREENDENDO AS TCNICAS
No captulo 3, item 3.1, apresenta-se o desenvolvimento de exemplo prticos
da anlise de agrupamentos, que consiste na reunio de elementos semelhantes.
No item 3.2, mostra-se conceitos e aplicao de exemplos prticos da anlise de
componentes principais, sendo que a principal meta, desta anlise, a reduo de
dimenso das variveis e a anlise fatorial, que busca fatores abstratos para a
representao do conjunto de dados.
42
(b) acrescentando uma linha e coluna com as distncias, entre o grupo (UV) e os
demais grupos.
Varivel 4
Varivel 5
20
11
49
18
10
45
11
35
30
15
10
26
43
d var1, var1 = (20 20) 2 + (18 18) 2 + (11 11) 2 + (10 10) 2 = 0
d var 1, var 2 = (5 20) 2 + (9 18) 2 + (35 11) 2 + (3 10) 2 = 30,5
d var1, var 3 = (11 20) 2 + (10 18) 2 + (30 11) 2 + (7 10) 2 = 22,7
d var1, var 4 = (7 20) 2 + (2 18) 2 + (15 11) 2 + (4 10) 2 = 21,8
d var1, var 5 = (49 20) 2 + (45 18) 2 + (7 11) 2 + (26 10) 2 = 49,9
d var 2, var1 = (20 5) 2 + (18 9) 2 + (11 35) 2 + (10 3) 2 = 30,5
d var 2, var 3 = (11 5) 2 + (10 9) 2 + (30 35) 2 + (7 3) 2 = 8,8
d var 2, var 4 = (7 5) 2 + (2 9) 2 + (15 35) 2 + (4 3) 2 = 21,3
d var 2, var 5 = (49 5) 2 + (45 9) 2 + (7 35) 2 + (26 3) 2 = 67,4
As demais distncias sero obtidas analogamente.
Com todas as distncias calculadas, obteve-se a seguinte matriz de
distncias euclidiana:
0,0 64,5
5
0,0
44
1
2
3
4
5
1 0,0 30,5 22,7 21,8 42,9
2 0,0 8,8 21,3 67,4
D1 = 3
4
0,0 64,5
5
0,0
Como se pode verificar na matriz acima, a menor distncia est na linha 2 e
coluna 3, e ser representada por d 23 = 8,8 , logo esses sero os primeiros
indivduos a serem agrupados, 2 e 3.
A Figura 09 refere-se ao primeiro grupo formado da anlise referente s
variveis 2 e 3.
var 3
var 2
1
( 23 )
4
5
1 0,0 22,7 21,8 42,9
(23)
0,0 17,7 59,7
D2 =
4
0,0 64,5
0,0
A segunda menor distncia est na linha 23 e coluna 4, representada em D3
por d ( 23) 4 = 17,7 , logo o indivduo 4 ser includo no grupo 2 e 3.
45
var 4
var 3
var 2
1 ( 234 ) 5
1 0,0 21,8 42,9
D3 = (234) 0,0 59,7
5
0,0
A terceira menor distncia est na linha 1 e coluna 234, e ser representada
pela matriz D4 por d ( 234 )1 = 21,8 . Incluindo o indivduo 1 no grupo (234).
A Figura 11 refere-se ao terceiro grupo, formado da anlise, no qual est
sendo adicionada a varivel 1 ao grupo de variveis j formado anteriormente (234).
var 4
var 3
var 2
var 1
46
(1234 ) 5
(1234) 0,0 42,9
D4 =
5
0,0
A Figura 12 refere-se ao quarto grupo, formado da anlise, no qual est
sendo adicionada a varivel 5 ao grupo de variveis j formado anteriormente
(1234).
var 5
var 4
var 3
var 2
var 1
47
40
35
30
25
III
II
20
15
I
10
5
Var5
Var4
Var3
Var2
Var1
48
Passo
Juno
Nveis
2,3
8,8
23,4
17,7
234,1
21,8
1234,5
42,9
Em
razo
da
sua
simplicidade,
esse
mtodo
apresenta
grande
49
1
2
3
4
5
1 0,0 30,5 22,7 21,8 42,9
2 0,0 8,8 21,3 67,4
D1 = 3
4
0,0 64,5
5
0,0
Observando a matriz D1 , a menor distncia est no elemento da linha 2 e
coluna 3. Esta distncia representado por d 23 = 8,8 , logo, esses sero os primeiros
indivduos a serem agrupados 2 e 3. A distncia existente entre esse grupo, e os
grupos individuais 1, 4 e 5, sero obtidas pelo mtodo do vizinho mais distante,
conforme segue:
50
1
( 23 )
4
5
1 0,0 30,5 21,8 42,9
(23) 0,0 21,3 67,4
D2 =
4
0,0 64,5
5
0,0
( 234 )
0,0
A menor distncia da matriz D 3 o elemento da linha 1 e coluna 234. Essa
distncia dada por d ( 234)1 = 30,5 incluindo, assim, o indivduo 1 no grupo (234), e as
distncias sero obtidas pelo mtodo do vizinho mais distante, da mesma forma que
as anteriores:
(1234) 5
(1234) 0,0 67,4
D4 =
5
0,0
Dessa forma, agruparam-se os indivduos (1234) e 5, formando, assim, o
ltimo grupo do dendograma. A Figura 15 representa o dendograma vertical da
matriz de distncias, pelo mtodo de ligao completa.
51
60
50
40
30
20
10
0
Var5
Var4
Var3
Var2
Var1
Para analisar esse dendograma, deve-se ter cuidado, pois a unio de dois
grupos depende do par de objetos mais distantes. Pode-se dizer que um elemento
unir-se- a um grupo unicamente se for ligado a todos os elementos desse grupo.
Observando-se a Figura 15, possvel verificar que o maior salto est na
ltima etapa, se se fizer um corte no grfico entre a altura 30,5 e 67,4 ter-se- dois
grupos homogneos distintos. O primeiro grupo ser formado pelas variveis de um
a quatro, representado pela elipse, o segundo grupo ser formado pela quinta
varivel, representado pelo crculo, sendo que esta varivel distinta das demais,
pelo fato de ter formado um grupo isolado.
Comparando-se os resultados alcanados, e apresentados nas Figuras 13 e
15, pode-se notar que os dendrogramas, para o mtodo do vizinho mais prximo e
do vizinho mais distante, no diferem na alocao dos objetos, para esse exemplo
em particular.
Os algoritmos vistos produzem grupos que constituem uma proposio sobre
a organizao bsica e desconhecida dos dados. Entretanto, eles esbarram em uma
dificuldade, que a determinao do nmero ideal de grupos a serem formados
(REGAZZI, 2001).
52
Passo
Juno
Nvel
2,3
8,8
23,4
21,3
234,1
30,5
1234,5
67,4
53
n 1
rnm =
j =1
n 1
j =1
j, = j +1
(c
j, = j +1
(c
)(
c f jj , f
jj ,
) (f
2
jj ,
n 1
j =1
j, = j +1
(3.1)
jj ,
c=
i =1
(3.3)
f
f=
j =1
Indivduos
Caractersticas
1 colheita
2 colheita
3 colheita
4 colheita
Premium
22,00
24,00
20,00
26,00
AG_9020
20,00
19,00
22,00
25,00
AG_9090
24,00
20,00
28,00
23,00
Agroeste
21,00
26,00
24,00
25,00
d11 =
1
(22 22) 2 + (20 20) 2 + (24 24) 2 + (21 21) 2 = 0
4
54
d12 =
1
(24 22) 2 + (19 20) 2 + (20 24) 2 + (26 21) 2 = 3,39
4
d13 =
1
(20 22) 2 + (22 20) 2 + (28 24) 2 + (24 21) 2 = 2,87
4
d14 =
1
(26 22) 2 + (25 20) 2 + (23 24) 2 + (25 21) 2 = 3,81
4
As demais distncias so obtidas de forma anloga, sendo que a matriz de
1
D1 = F =
2
3
4
1
2
3
4
0 3,39 2,87 3,81
0
4,82 3,54
0
4,21
13
2
4
13 0 3,39 3,81
D2 = 2
0 3,54
4
0
Observando-se a matriz D 2 , possvel verificar que a menor distncia o
elemento localizado na linha 13 e coluna 2, sendo que esta dada por d (13) 2 = 3,39 .
Logo, o indivduo 2 ser includo no grupo de 1 e 3. Nesta etapa sero agrupadas as
variveis (123) e 4, formando, dessa maneira, um nico grupo.
55
(123 ) 4
(123) 0 3,54
D3 =
4
0
Pode-se fazer um resumo desse mtodo, do vizinho mais prximo, atravs
da Tabela 07.
Tabela 07 Resumo do mtodo do vizinho mais prximo.
Passos
Juno
Nvel
1,3
2,87
13,2
3,39
123,4
3,54
6,8
6,6
6,4
6,2
6,0
5,8
5,6
4 colheita
2 colheita
3 colheita
1 colheita
56
isso, pode-se dizer que essas duas variveis so semelhantes entre si. J as
variveis que representam a segunda e a quarta colheita formaram dois grupos
distintos entre si e entre o primeiro grupo formado, por se manterem isoladas das
demais. Pois ao se realizar um corte na altura prximo a 6,4 do eixo vertical,
distancia entre grupos, verifica-se que ficam suspensos trs grupos e que no tero
ligao entre si.
As menores distncias encontradas, atravs do mtodo do vizinho mais
prximo, sero utilizadas para compor a matriz cofentica. Essas distncias
encontradas passam a formar as linhas e as colunas dessa matriz. Logo, o elemento
2,87 estar localizado na linha 1 e coluna 3 da matriz cofentica. J o elemento da
3,39 estar localizado na linha 1 e coluna 2, e na linha 2 e coluna 3 da matriz
cofentica. O elemento 3,54 estar localizado nas seguintes linhas e seguintes
colunas: linha 1 e coluna 4, linha 2 e coluna 4, linha 3 e coluna 4, formando, assim, a
matriz cofentica C.
(1,3) = 2,87
(13,2) = 1,2 e 2,3 = 3,39
(123,4) = 1,4; 2,4; 3,4 = 3,54.
3,54
A partir dos valores da matriz cofentica C, passa-se a calcular o coeficiente
de correlao cofentica dado por:
Tabela 08 Valores correspondentes matriz fentica e cofentica.
F
C
3,39
3,39
2,87
2,87
3,81
3,54
4,82
3,39
3,54
3,54
4,21
3,54
57
onde:
F = matriz fentica, na qual seus valores foram obtidos junto matriz inicial das
distncias.
f =
(X
n
i =1
S F2 =
S F2 =
X)
n 1
(X
=
(3.4)
1 X ) + (X 2 X ) + ... + ( X n X )
n 1
2
(X
n
S=
X)
i =1
n 1
(X
X ) + (X 2 X ) + ... + (X n X )
n 1
2
(3.5)
S F = 0,46 = 0,68.
A mdia da matriz cofentica, calculada mediante a expresso do item 3.2.
c =
SC = 0,07 = 0,26.
58
Cov FC =
1
x. y
n 1
x. y
n
(3.6)
4,21.3,54
CovFC =
22,64.20,27
1
76,99
= 0,10.
6 1
6
rcof = rFC =
rcof =
0,10
(0,46)(0,07)
Cov ( F , C )
(3.7)
V ( F ).V ( C )
~
= 0,56.
Como rcof = 0,56 < 0,7, pode-se concluir que o mtodo utilizado no foi
adequado para resumir a informao ao conjunto de dados. Logo, deve-se utilizar
outros mtodos para fazer a anlise dos dados.
59
de
ordenao,
que
evidenciar
os
fatores
responsveis
pelos
agrupamentos.
Mediante os autovalores, pelo critrio sugerido por KAISER (1960) apud MARDIA
(1979), que consiste em incluir somente aquelas componentes cujos valores
prprios sejam superiores a 1. Este critrio tende a incluir poucas componentes
quando o nmero de variveis originais inferior a vinte e, em geral, utiliza-se
aquelas componentes que conseguem sintetizar uma varincia acumulada em
torno de 70%.
60
que iro compor as combinaes lineares, que iro formar as novas variveis.
A ltima etapa ser fazer normalizao e a ortogonalizao dos autovetores,
para garantir soluo nica as componentes principais e, tambm, que estas sejam
independentes umas das outras.
Matriz de varincia-covarincia
sij .
Conforme Regazzi (2001), considerando as variveis X1, X2, ..., XP, denotase a matriz de covarincia por S da seguinte forma:
Cv ( X 1 , X 2 )
Vr ( X 1 )
Cv ( X , X )
Vr ( X 2 )
1
2
S =
.......
......
Cv ( X 1 , X p ) Cv ( X 2 , X p )
...... Cv ( X 1 , X p )
...... Cv ( X 2 , X p )
......
......
......
Vr ( X p )
S 12
ou S =
S 12
S 22
.
.
S1 p
S2p
S3p
.
.
S P2
(3.8)
(s ) , e os
ij
(s ) .
2
i
(
X ij , ) 2
n
1
2 i =1
Vr ( X j ) =
X ij ,
n 1 i = 1
n
(3.9)
61
1 n
Cv( X j , X j , ) =
X ij X ij ,
n 1 i =1
(3.10)
n
n
X ij X ij ,
i =1
i = 1
10,0
10,7
10,4
9,8
9,7
10,0
9,7
10,1
11,7
11,5
533,23
544,79
51,5
52,1
0,70
0,48
0,84
0,69
62
1
51,5.52,1
538,44
5 1
5
1
Cv ( x, y ) = [538,4 536,63] = 0,45.
4
Cv( x, y ) =
0,69 0,45
S=
0,45 0,48
Matriz de correlao
1
r
12
R = .
.
r1 p
r12
1
.
.
r2 p
.
.
.
.
.
.
.
.
.
.
. r1 p
. r2 p
. .
. .
. 1
(3.11)
na qual:
r jj , = r ( X j , X j , ) = Cv( Z j , Z j , ) =
Cv( X j , X j , )
(3.12)
Vr ( X j ).Vr ( X j , )
63
r12 =
0,45
= 0,79.
0,83.0,69
Como a correlao entre r12 = r21 = rxy , logo r11 = r22 = rxy tambm so
Cv( X 1 , X 1 ) S x 1
r11 =
= 2 ,
S x1 .S x1
Sx1
r11 =
(3.13)
0,832
= 1.
0,832
Logo, a matriz de correlao R ser assim constituda:
0,79
1
R=
.
1
0,79
A soluo, utilizando-se a matriz de correlao, recomendada quando as
variveis so medidas em escalas muito diferentes entre si, pois essa matriz
equivalente matriz das variveis padronizadas, (JOHNSON & WICHERN, 1992).
64
(3.14)
(3.15)
r
uma matriz pxp de todos
no qual, X uma matriz pxp de todos autovetores, e
autovalores.
r
Ento x dito autovetor ou vetor caracterstico da matriz S, associada com
.
o valor
matriz S.
65
,
, .....,
Sejam
as p solues, temos que a cada autovalor
1
2
p
i
xi1
x
i2
r
xi = . com
.
xip
p
x
j =1
ij
2
ij
r r
= 1 ( xit .xi = 1) , sendo esta a condio de normalidade.
j =1
r r
x kj = 0 para i k ( x it .x k = 0 para i k ) , sendo esta a condio de
I xr = 0
S
i
xi1
xi 2
r
xi = . , um autovetor no normalizado.
.
x
ip
r
o um vetor nulo, de dimenso px1.
xi1
x
i2
r
xi = . =
.
xip
1
xi21 + xi22 + .... + xip2
xi1
r
xi 2
x
. = ri xrit xri = 1 .
xi
.
x
ip
(3.16)
66
r
Conforme Regazzi (2001), tomando os elementos do vetor xi , assim
Vr( X ) =
i
= Vr (Yi ) ;
p
ij
x kj = 0 .
j =i
Vr (Y )
i
i =1
.100 =
.100 =
i
.100 ,
trao( S )
(3.17)
i =1
sendo que esta expresso representa a proporo da varincia total explicada pela
componente Yi .
Ao se estudar um conjunto de n observaes de p-variveis, possvel
encontrar novas variveis denominadas de Yk , k = 1, ..., p, que so combinaes
lineares (CL) das variveis originais Xp, no correlacionados, e apresentam um grau
de variabilidade diferente umas das outras, tambm apresentados em ordem
decrescente de valores. importante lembrar que, em componentes principais, a
unidade de medida so combinaes lineares no correlacionadas, por isso so de
difcil interpretao, e tambm por esse motivo que as variveis originais devem
estar na mesma unidade de medida.
A soma dos k autovalores, dividida pela soma de todos os p autovalores
+ ... +
) /(
+ .... +
), representa a proporo total explicada pelos primeiros
(
1
k
1
p
67
(3.18)
Vr (Y )
i
i =1
R. Os elementos desses vetores definem sua posio, isto , o ngulo que eles
formam com os eixos originais de Y1 e Y2 . O comprimento desses vetores so os
dessa matriz, que representa a varincia dos
autovalores correspondentes a
68
2
Z2
I
21
II
x2
22
12
11
x1
Z1
Y
Figura 17 - Representao grfica dos autovalores e autovetores.
Fonte : Valentin 2000.
I = 0
seguinte equao caracterstica: S -
I = matriz identidade.
Mostra-se, a seguir, um exemplo numrico para o clculo dos autovalores e
autovetores, utilizando-se os dados da Tabela 09.
Seja S a matriz de varincia e covarincia amostral, dada por:
0,69 0,45
S =
,
0,45 0,48
I = 0.
S-
Substituindo-se essa equao pelas matrizes S e I, obtm-se a seguinte
expresso:
0,69 0,45 1 0
0,45 0,48 0 1 = 0.
0
0,69 0,45
= 0.
0,45 0,48
69
0,69
0,45
= 0.
0
,
45
0
,
48
0,48
+
2 0,20 = 0.
0,33 0,69
Resolvendo-se essa equao, encontra-se os autovalores correspondentes
matriz S.
2 1,17
+ 0,13 = 0 .
(2)(1)
= 1,05 e
= 0,13.
so:
1
2
Aps encontrado os autovalores, passa-se a calcular os autovetores,
r
correspondentes matriz S. Na expresso que segue, x1 um autovetor que ser
.
associado ao autovalor
1
r
r
X , para
= 1,05.
SX =
1
Substituindo-se os valores da expresso pelos seus respectivos dados temse:
12
12
r
,
Realizando a multiplicao da matriz S com o autovetor x e o autovalor
1
obtem-se o seguinte sistema linear:
70
r 1
x1 = .
0,8
= 0,13, faz-se os
Para obter os autovetores associados ao autovalor
2
:
clculos de forma anloga ao autovalor
1
r
r
X , para
= 0,13.
SX =
2
Substituindo-se os valores da expresso pelos seus respectivos dados temse:
22
22
r
,
Realizando a multiplicao da matriz S com o autovetor x2 e o autovalor
2
obtem-se o seguinte sistema linear:
71
Corr (X j , Y1 ) = rX j Y1 = x 1 j
Vr (Y1 )
Vr (X j )
x1j
Vr (X j )
(3.19)
,
x11
Vr ( X 1 )
x12
Vr ( X 2 )
, ........ ,
x1 p
(3.20)
Vr ( X p )
72
Coeficientes de ponderao
associados s variveis
X 1 , X 2 , ... , X p .
Correlao entre
X j e Yi
Percentagem da
varincia de Yi
Percentagem acumulada da
varincia dos Yi
Componentes
Principais
Autovalores
Y1
x11 x12 .. x1 p
x11
1
s1
x
1p
x12 ..
1
1
sp
s2
.100
1 /
i
i =1
.100
1 /
i
i
=
1
Y2
x 21 x 22 .. x 2 p
x21
2
s1
x2 p
x22 ..
2
2
s2
sp
.100
2 /
i
i = 1
/
.100
1 +
2
i
i = 1
Yp
.100
p /
i
i = 1
p
/
.100
1 + 2 + ... +
p
i
i = 1
X 2 .. X p
X1
x p1 x p 2 .. x pp
X1
X2
x p1
p
s1
..... X P
x p 2 .. x pp
p
p
s2
sp
73
X1
X2
x11
x 21
x n1
..... X p
Y1
Y2
x12 .... x1 p
y11
x 22 .... x 2 p
y 21
y 22 .... y 2 k
x n 2 .... x np
y n1
..... Yk
y n 2 .... y nk
....
....
74
...
Zp
Z11
Z12
Z13
Z14
...
Z1j
...
Z1p
Z21
Z22
Z23
Z24
...
Z2j
...
Z2p
Z31
Z32
Z33
Z34
...
Z3j
...
Z3p
Zi1
Zi2
Zi3
Zi4
...
Zij
Zip
Zn1
Zn2
Zn3
Zn4
...
Znj
...
Znp
75
variveis padronizadas Z j .
Desta forma, utilizando os dados padronizados garante-se que todas as
variveis tenham o mesmo grau de importncia, portanto, trabalha-se com o
conjunto de dados padronizados. Neste caso, faz-se necessrio estimar a matriz R
para se calcular os autovalores e autovetores que daro origem s componentes
principais, cujo procedimento para a estimao dos autovalores e autovetores ser o
mesmo mostrado anteriormente, apenas substituindo S por R. Os autovetores
passaro a ser denominados de p, pois esta nova representao indica que o
conjunto amostral dos dados foi padronizado. Logo, os pares de autovalores e
, e ) ,
autovetores estimados da amostra analisada sero representados por (
1 1
, e ) ; onde
0; e fornecero as novas combinaes
, e ) , ... , (
...
(
2
2
p
p
1
2
p
lineares
(JOHNSON
&
WICHERN,
1992)
expressas
por
2
S112 + S 222 + ... + S pp
=
Var ( X i ) = 1 + 2 + ... + p =
i =1
Var (Y )
i
i =1
2
S112 + S 222 + ... + S pp
= tr ( S )
1
+
+ ... +
1
2
p
k = 1, 2, ... , p
tr R = p
Como se pode verificar, o trao da matriz R ser igual ao nmero de
variveis que esto envolvidas na formao das componentes principais, e a
proporo da explicao fornecido pela j-sima componente ser dada por:
tr R
76
ACP pode ocorrer a dependncia linear aproximada entre algumas variveis. Neste
caso, os valores prprios menores so muito prximos de zero e a sua contribuio
para explicar a varincia ser muito pequena (REIS, 1997). Por isso, deve-se retirar
da anlise aquelas componentes que possuem pouca informao, isso no implica
em uma perda significativa de informao.
Com isso, pode-se reduzir os dados e tornar os resultados mais fceis de
serem interpretados. Dentre vrios critrios que excluem componentes que possuem
pouca informao, cita-se estes:
A definio do nmero de componentes a serem utilizadas feita por meio
de dois critrios. O primeiro, denominado de mtodo grfico, representa
graficamente a porcentagem de variao explicada pela componente nas ordenadas
e os autovalores em ordem decrescente nas abscissas. Quando esta percentagem
diminui e a curva passa a ser praticamente paralela ao eixo das abscissas, exclui-se
as componentes que restam, pois possuem pouca informao. Este critrio, que
considera as componentes anteriores ao ponto de inflexo da curva, foi sugerido por
CATTEL (1966) e exemplificado por PLA (1986), que considera quatro situaes
distintas, conforme mostra Tabela 14.
77
Total
Caso 1
35
30
28
100
Caso 2
45
30
100
Caso 3
75
100
Caso 4
22
21
20
19
18
100
70
50
30
10
Caso 1
Caso 2
Caso 3
-10
CP1
CP2
CP3
CP4
CP5
Caso 4
Componentes Principais
78
i
s kk
quando os
79
(Varivel) X1
(Varivel) X2
1
2
3
4
5
100
93
102
95
90
76
82
81
68
62
X2
46178
27529
480
369
24,5
74,2
4,95
8,61
Cv( x1 , x 2 ) =
1
480.369
35528
5 1
5
Cv ( x1 , x 2 ) =
1
[35528 35424]
4
Cv( x1 , x 2 ) = 26 ,
logo, a matriz S assim constituda:
24,5 26
S =
.
26 74,2
I = 0.
S
80
24,5 26 1 0
26 74,2 0 1 = 0.
24,5 -
26
26
74,2 -
= 0.
74,2
+
2 676 = 0.
1817,9 24,5
Resolvendo essa equao, encontra-se os autovalores correspondentes
matriz S.
2 98,7
+ 1141,9 = 0 .
= b
(b) 2 4(a)(c)
2(a)
=
, logo, os dois autovalores resultantes da
(2)(1)
= 85,32 e
= 13,38.
equao so:
1
2
Como pode-se observar, a soma dos autovalores corresponde ao trao e ao
determinante da matriz S.
+
+ .... +
= trao da matriz S. Ou seja,
1
2
p
13,38 + 85,32 = 98,7 = trao da matriz S.
).(
) ....(
) = determinante da matriz S.
(
1
2
p
(13,38).(85,32) = 1141.6.
81
1
.100 , ser obtida a proporo da
trao S
varincia total, explicada por cada componente principal. Observa-se que a primeira
componente explica
85,32
.100 = 86,44% , e a segunda componente explica
98,7
13,38
.100 = 13,56% .
98,7
, explica 86,44% da
Ou seja, a primeira componente relativa raiz
1
variao total dos dados.
= 85,32 e
= 13,38, ou seja,
Essa varincia ser distribuda entre
1
2
86,44% da varincia explicada pelo primeiro eixo fatorial, e 13,56% pelo segundo.
Como pode-se observar, acima, cada componente principal sintetiza a
mxima proporo de varincia contida nos dados.
Deve-se observar, tambm, que a adio de duas razes caractersticas d
98,7, que nada mais que o segundo termo da equao.
r
I X = 0.
S
1
1
Substituindo-se essa equao pelas matrizes S, I, pelo primeiro autovalor
24,5 26
1 0 x11 0
26 74,2 85,320 1 = 0.
x12
matriz I e subtraindo da matriz S, obtm-se
Multiplicando-se o autovalor
1
as seguintes matrizes:
82
26
24,5 85,32
26
74,2 85,32
x11 0
= .
x12 0
26
26
11,12
= 0,
x11 = 0,43,
= 85,32, ser:
e o autovetor associado ao primeiro autovalor
1
r 0,43
x1 =
e, sua norma ser de:
1
r
x1 = ( 0,43) 2 + (1) 2 = 1,09.
Para que esse vetor seja unitrio, necessrio normalizar o autovetor a 1,
da seguinte forma:
1 r
x1 = r .x1 .
x1
Substituindo-se essa expresso pelos seus respectivos valores tm-se:
1 0,43
,
1,09 1
logo, o primeiro autovetor normalizado ser:
x1 =
0,39
x1 =
,
0,92
e a sua norma ser:
83
x1 = ( 0,39) 2 + (0,92) 2 = 1.
Como pode-se observar x1t x1 = 1 , sendo esta a primeira restrio feita por
Morrison (1976), para que o sistema tenha soluo nica.
Logo, o primeiro componente principal ser:
Y1 = 0,39 X 1 + 0,92 X 2 .
= 13,38 :
O segundo componente principal dado pela outra raiz
2
r
I X = 0.
S
2
2
Substituindo-se essa equao pelas matrizes S, I, pelo segundo autovetor
24,5 26
1 0 x21 0
26 74,2 13,38 0 1 = 0.
x22
matriz I e subtraindo da matriz S, obtmMultiplicando-se o autovalor
2
se as seguintes matrizes:
26
24,5 13,38
x21 0
.
=
26
74,2 13,38 x22 0
26
26
60,82
= 0,
ou, ainda, por x21 = x22 = 0 , ou seja, o vetor passando pela origem.
Devido a isso, pode-se deixar uma das equaes (neste caso a segunda), e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( x22 = 1 ). Dessa
forma, tem-se:
26
= 2,34
11,12
= 13,38 , ser:
e o autovetor, associado ao segundo autovalor
2
84
2,34
x2 =
,
1
e sua norma ser de:
1 r
1 2,34
x2 = r x2 =
,
2,54 1
x2
logo, o segundo autovetor normalizado ser:
0,92
x2 =
,
0,39
e sua norma ser de:
x2 = (0,92) 2 + (0,39) 2 = 1.
Como pode-se observar, x2t x2 = 1 a primeira restrio feita por Morrison
(1976), para que o sistema tenha soluo nica (SOUZA, 2001).
Os elementos desses dois vetores de norma 1 so os cossenos-diretores
dos ngulos que eles fazem com o sistema de origem.
Logo, a segunda componente principal ser:
Y2 = 0,92 X 1 + 0,39 X 2 .
Outra restrio que, nesse exemplo, os dois vetores so ortogonais, pois
x1t x2 = 0 (o produto escalar igual zero), que a segunda restrio feita por
Morrison (1976).
Para que esta restrio seja satisfeita, deve-se multiplicar o primeiro
autovetor normalizado transposto pelo segundo autovetor normalizado, procedendose da seguinte forma:
0,92
x1t x2 = [0,39 0,92]
.
0,39
Multiplicando-se os autovetores normalizados, tm-se a seguinte expresso:
85
Um
exemplo
disso
pode
ser
primeira
componente
principal:
Y1 = 0,39 X 1 + ( 0,92)(1) X 2
Y1 = 0,39 X 1 0,92 X 2 .
O passo a seguir realizado para encontrar o valor de cada componente
principal, procede-se da seguinte forma:
Y1 = 0,39 X 1 + 0,92 X 2
Y11 = 0,39(100) + 0,92(76) = 108,92
Y12 = 0,39(93) + 0,92(82) = 111,71
Y2 = 0,92 X 1 + 0,39 X 2
Y21 = 0,92(100) + 0,39(76) = 62,36
Y22 = 0,92(93) + 0,39(82) = 53,58
Y23 = 0,92(102) + 0,39(81) = 62,25
Y1
Y2
X1
X2
100
76
108,22
-62,36
93
82
111,71
-53,58
102
81
114,3
-62,25
95
68
99,61
-60,88
90
62
92,14
-58,62
86
rx1 y1 =
x11
Vr ( x1 )
rx1 y1 = 85,32.
rx2 y1 =
x12
Vr ( x 2 )
rx 2 y1 = 85,32 .
rx1 y2 =
0,92
= 0,99
74,2
x 21
Vr ( x1 )
rx1 y 2 = 13,39.
rx2 y 2 =
0,39
= 0,73
24,5
rx 2 y 2 = 13,39 .
0,92
24,5
= -0,68
x 22
Vr ( x 2 )
0,39
= 0,17.
74,2
Coeficiente de
ponderao
associado s
variveis
Correlao entre
Percentagem
da varincia de
X j Yi
Yi
X1
X2
X1
X2
Percentagem
acumulada da
varincia dos
Yi
Y1
85,32
0,39
0,92
0,73
0,99
86,44%
86,44%
Y2
13,39
-0,92
0,39
-0,68
0,17
13,56%
100%
87
1
2
3
4
5
Variveis originais
Variveis padronizadas
X1
X2
Z1
Z2
100
93
102
95
90
76
82
81
68
62
0,81
-0,61
1,21
-0,20
-1,21
0,26
0,95
0,84
-0,67
-1,37
Z 11 =
100 96
= 0,81
4,95
Z 21 =
76 73,8
= 0,26
8,61
Z 12 =
93 96
= 0,61
4,95
Z 22 =
82 73,8
= 0,95
8,61
Z 13 =
102 96
= 1,21
4,95
Z 23 =
81 73,8
= 0,84
8,61
Z 14 =
95 96
= 0,20
4,95
Z 24 =
68 73,8
= 0,67
8,61
Z 15 =
90 96
= 1,21
4,95
Z 25 =
62 73,8
= 1,37
8,61
88
X2
46178
27529
480
369
24,5
74,2
4,9497
8,6139
26
= 0,61.
4,95 .8,61
A correlao entre a varivel, em relao a ela mesma, ser fornecida pela
r11 =
24,52
= 1,
24,52
0,61
1
R=
.
0,61 1
Para encontrar os autovalores, a partir da matriz de correlao R, deve-se
partir da seguinte equao caracterstica:
I = 0.
R
Substituindo-se essa equao pelas matrizes R e I, obtm-se a seguinte
expresso:
0,61 1 0
1
0,61 1 0 1 = 0.
= 0.
0,61 1
1
0,61
0,61
= 0.
89
+
2 0,37 = 0.
1
Resolvendo essa equao, encontra-se os autovalores correspondentes
matriz R.
2 2
+ 0,63 = 0.
2 (2) 2 4(1)(0,63)
=
logo, os dois autovalores resultantes da equao so:
2(1)
= 1,61 e
= 0,39.
1
2
Como pode-se observar, a adio de duas razes caractersticas d 2, que
nada mais que o segundo termo da equao.
Deve-se observar, tambm, que a soma dos autovalores corresponde ao
trao e ao determinante da matriz R.
+
+ .... +
= trao da matriz R.
1
2
p
ou seja, 1,61 + 0,39 = 2 = trao da matriz R.
).(
) ....(
) = determinante da matriz R.
(
1
2
p
(1,61).(0,39) = 0,63.
Se a seguinte expresso for resolvida
1
.100 , tem-se a proporo da
trao R
varincia total, explicada por cada componente principal. Observa-se que a primeira
componente
explica
1,61
.100 = 80,50% ,
2
segunda
componente
explica
0,39
.100 = 19,50% .
2
, explica 80,50% da
Ou seja, a primeira componente relativa raiz
1
variao total dos dados.
90
= 1,61 e
= 0,39, ou seja, 80,50%
Essa varincia ser distribuda entre
1
2
da varincia explicada pelo primeiro eixo fatorial, e 19,50% pelo segundo.
0,61
1
1 0 e11 0
1
,
61
0,61 1
0 1 e = 0.
12
matriz I e subtraindo da matriz R, obtmMultiplicando-se o autovalor
1
se as seguintes matrizes:
1 1,61 0,61
0,61 1 1,61
e11 0
e = 0.
12
0,61e11 + 0,61e12 = 0
.
0,61e11 0,61e12 = 0
I = 0
Esse sistema de equaes indeterminado em virtude de R
0,61
0,61
0,61
0,61
= 0.
Devido a isso, pode-se deixar uma das equaes (neste caso a segunda) e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( e12 = 1) . Dessa
forma, tem-se:
- 0,61 e11 + 0,61.(1) = 0
- 0,61 e11 = - 0,61, logo e11 ser:
e11 = 1,
= 1,61, ser:
e o autovetor associado ao primeiro autovalor
1
1
e1 = e, sua norma ser:
1
e1 =
91
1
.e1.
e1
e1 =
e1 =
1 1
.
1,41 1
Portanto, o primeiro autovetor normalizado ser:
0,71
e1 =
,
0,71
e a sua norma ser:
e1 =
( 0,71) 2 + (0,71) 2 = 1.
Como pode-se observar e1t e1 = 1 , sendo esta a primeira restrio feita por
Y1 = 0,71Z 1 + 0,71Z 2 .
= 0,39 :
O segundo componente principal dado pela outra raiz
2
2 I e = 0.
R
2
Substituindo-se essa equao pelas matrizes R, I, pelo segundo autovalor
1 0,61
1 0 e21 0
0
,
39
0,61 1
0 1 e = 0.
22
matriz I e subtraindo da matriz R, obtmMultiplicando-se o autovalor
2
se as seguintes matrizes:
0,61 e21 0
1 0,39
.
=
0,61
1 0,39 e22 0
0,61e 21 + 0,61e 22 = 0
.
0,61e 21 + 0,61e 22 = 0
Fazendo-se o procedimento anlogo ao anterior, tem-se:
92
e 21 = 1 ,
= 0,39 , ser:
e o autovetor associado ao segundo autovalor
2
1
e2 = ,
1
e sua norma ser de:
e2 =
1
1 1
e2 =
,
e2
1,41 1
0,71
e2 =
,
0,71
e sua norma ser:
e2 =
(0,71) 2 + (0,71) 2 = 1.
Como pode-se observar, e2t e2 = 1 a primeira restrio feita por Morrison
Y2 = 0,71Z1 + 0,71Z 2 .
Outra observao que, neste exemplo, os componentes principais so
ortogonais, pois e1t e2 = 0, que a segunda restrio feita por Morrison (1976).
Para que esta restrio seja satisfeita deve-se multiplicar o primeiro
autovetor normalizado transposto pelo segundo autovetor normalizado, procedendose da seguinte forma:
0,71
e1t e2 = [0,71 0,71]
.
0,71
Multiplicando-se os autovetores normalizados, tm-se a seguinte expresso:
93
Y1
Y2
X1
X2
100
76
0,76
-0,39
93
82
0,24
1,10
102
81
1,46
-0,26
95
68
-0,62
0,34
90
62
-1,83
-0,11
rz1y1 = e11
1
rz 2 y1 = e12
1
rz1y 2 = e 21
2
rz 2 y2 = e 22
2
Coeficiente de
ponderao
Correlao
entre Z j Yi
Z1
Z2
Z1
Z2
Z1 e Z 2 .
Percentagem
da varincia
de Yi
Percentagem
acumulada da
varincia dos Yi
Y1
1,61
0,71
0,71
0,90
0,90
80,50%
80,50%
Y2
0,39
-0,71
0,71
-0,44
0,44
19,50%
100%
94
95
96
Figura 20 - Caixa de seleo para importar os dados do excel para o programa statistica.
Figura 21 - Caixa de seleo para importar os todos os dados do excel para o programa statistica.
97
Figura 22 - Caixa de seleo para importar os dados do excel para o programa statistica,
por linhas e por colunas.
98
99
100
da AA.
101
A Figura 25 mostra a caixa de dilogo das variveis para AA. Nesta caixa
existem vrias opes para a realizao da anlise. Selecionando a opo
Variables, possvel visualizar e selecionar as variveis que o pesquisador deseja
incluir na anlise. Na opo Imput in file encontra-se as opes Raw data, que
utilizada para os dados brutos do banco de dados. Outra opo desta caixa de
dilogo Cluster, que possibilita realizar a anlise de duas formas: se selecionar
102
103
1,4E7
1,2E7
1E7
8E6
6E6
4E6
2E6
SO 01/02
SO 99/00
SO 97/98
SO 95/96
MI 01/02
MI 99/00
MI 97/98
MI 95/96
CA 01/02
CA 99/00
CA 97/98
CA 95/96
TRI 01/02
TRI 99/00
TRI 97/98
TRI 95/96
GIR 01/02
GIR 99/00
FE 01/02
FE 99/00
FE 97/98
FE 95/96
AR 01/02
AR 99/00
AR 97/98
AR 95/96
104
105
Figura 30- Grfico das distncias nas quais os grupos foram formados.
2,5E7
2E7
1,5E7
1E7
5E6
PR
MT
RS
DF
GO
MS
SC
SP
106
V1 = Colmbolos
V2 = Ispteros
V3 = Hymenpteros
V4 = Hempteros
V5 = Dpteros
V6 = Colepteros
107
V7 = Aranae
V8 = Diplpodes
V9 = Chilpodas
V10 = Crustceos
V11 = caros
V12 = Aneldeos
V13 = Moluscos
V15 = Temperatura
A Figura 32 mostra o banco de dados com as variveis 15 representadas
nas colunas, e as 32 coletas que representam os objetos nas linhas.
108
109
factors o nmero
desejado. Neste caso, optou-se pelo nmero total de variveis que 13, pois no
poder haver nmero de fatores superior ao nmero de variveis. Em minimum
eingevalue, aconselha-se informar um valor bem baixo do tipo 0,001, pois, assim,
obtm-se o maior nmero possvel de autovalores, o que possibilita fazer uma
investigao melhor do estudo, caso contrrio pode-se informar um valor igual a 1 e
obtm-se, ento, somente os autovalores superiores a 1 e, desta forma, segue-se a
regra de KAISER (1960, apud MARDIA, 1979).
Deve-se lembrar que nem sempre o pesquisador est interessado nas
primeiras componentes, s vezes as componentes com menor grau de explicao
so as mais estveis, merecendo a devida ateno. Realizado isso, clica-se em Ok.
110
111
Autovalores
% da varincia
Autovalores
% da varincia
explicada
acumulados
explicada acumulada
4,30
33,05
4,30
33,05
2,35
18,10
6,65
51,15
1,78
13,66
8,43
64,82
1,23
9,49
9,66
74,31
0,94
7,27
10,60
81,58
0,83
6,42
11,44
87,99
0,52
3,98
11,96
91,97
0,35
2,66
12,30
94,63
0,26
1,99
12,56
96,62
10
0,19
1,43
12,75
98,05
11
0,13
0,99
12,88
99,04
12
0,09
0,66
12,96
99,70
13
0,04
0,30
13,00
100,00
112
Olhando para a Tabela 23, pode-se observar que os quatro primeiros fatores
possuem autovalores, que correspondem a 33,05%, 18,10%, 13,66%, e 9,49% da
varincia total, explicada pelos autovalores do modelo, ou seja, explicam juntos
74,31% das variaes das medidas originais. Decidindo-se por estes quatro fatores,
o pesquisador sabe qual o nvel de explicao est conseguindo de seus dados, e
decide se vale a pena a sntese fornecida por essa reduo de dimensionalidade, ou
se deve considerar todas as variveis. Conforme Pereira (2001), essa uma
medida de ajuste do modelo anlise de dados: no exemplo, o modelo com quatro
fatores ter 74,31% de representao real.
A Figura 38 mostra a seleo dos componentes principais atravs do mtodo
grfico Scree Plot, sendo que a porcentagem de variao explicada pela
componente est no eixo das ordenadas, e os autovalores esto representados em
ordem decrescente no eixo das abscissas. Como se pode observar, na Figura 35, as
quatro primeiras componentes explicam 74,31% da varincia total, havendo uma
estabilizao do grfico aps a quinta componente, sendo consideradas as quatro
primeiras. Pode-se observar, tambm, que as outras componentes apresentam uma
baixa explicao, no sendo aconselhvel inclu-las na anlise.
5,0
4,5
33,05%
4,0
3,5
Autovalores
3,0
18,10%
2,5
2,0
13,66%
1,5
9,49%
7,27%
6,42%
1,0
3,98%
2,66%
1,99%
1,43%,99%
,66%,30%
0,5
0,0
-0,5
-2
10
12
14
16
Nmero de autovalores
113
ACP.
Como a AF e a ACP so tcnicas exploratrias de dados, importante que
se realize uma estatstica descritiva nas variveis, para que haja uma melhor
compreenso nos resultados obtidos.
114
115
concluir que as variveis esto interligadas umas com as outras. O ideal realizar
um teste de significncia para as correlaes, pois desta forma tm-se a certeza se
a correlao significativa ou no. O que chancela para a realizao da AF seria o
KMO teste e o teste de Bartellet. Isso mostra que o estudo das variveis no deve
ser feito de forma isolada, mas, sim, de maneira conjunta, com a utilizao de uma
tcnica adequada, neste estudo a ACP.
A Figura 43 mostra a caixa de seleo de comandos para ACP, selecionase: Scores/Factor score coefficients, para extrair os autovetores, que definam a
direo dos eixos, para AF e ACP.
116
117
Ok.
118
A Figura 48, na opo Variables for analysis: mostra que todas as variveis
foram selecionadas, no existindo variveis suplementares para o estudo, basta
clicar em Ok.
119
120
Logo aps, clicar, com o boto auxiliar, no meio da tela, na qual esto as
variveis selecionadas. Abrir a caixa de seleo da Figura 52, na qual existem duas
opes de padronizao: por colunas, sendo esta a utilizada neste trabalho,
selecionando
Fill/Standardize
Block/Standardize
Columns,
ou
por
linhas,
121
Save case statistics e a opo Factor Scores deve estar selecionada, Ok.
122
123
124
Para
fazer
matriz
de
correlao,
seleciona-se
Statistics/Basic
125
Figura 59 - Caixa de seleo das variveis que iro compor a matriz de correlao.
Na Figura 61, selecionando a opo Summary: Correlation matrix, encontrase a matriz de correlao.
126
127
unrotated/ Summary: Factor loadings, para ver quanto cada varivel contribui na
formao de cada componente. Tambm nesta janela tem-se a opo de verificar o
mtodo grfico Plot of loadings, 2D, que representa, graficamente, os planos
fatoriais, mostrando a importncia de cada varivel no estudo. Nesta janela ainda h
a opo do mtodo grfico Plot of loadings, 3D, que possibilita identificar a
localizao das variveis num espao tri-dimensional.
128
129
devem ser utilizadas. A rotao mais utilizada a Varimax normalizada, pois esta
mantem os eixos perpendiculares entre si, ou seja, ortogonais.
A Figura 65 mostra a caixa de seleo de comandos para ACP, selecionase: Loadings/ no Factor rotation (Varimax normalized)/Summary:Factor loadings,
para se fazer a rotao nos eixos, possibilitando uma melhor visualizao das
variveis mais representativas em cada componente.
normalized.
130
131
fazer os planos fatoriais, a classe Insecta ser mantida fixa no eixo do x, e os fatores
do eixo y sero modificados a cada plano, para que se possa verificar a importncia
de cada varivel na formao de cada fator.
132
0,8
CHILOP.
Classe Crustcea
0,6
0,4
CRUSTACE
COLEM.
DIPLOP.
CAROS
0,2
ARANAE
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
DIP.
HYMENOP
-0,4
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Classe Insecta
Figura 68 - Grfico representando a relao entre fatores (fator 1 e fator 2) e variveis segundo factor
loadings.
133
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
0,8
CHILOP.
II
0,6
Fator 2
0,4
CRUSTACE
COLEM.
DIPLOP.
0,2
ARANAE
III
CAROS
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
DIP.
HYMENOP
-0,4
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Fator 1
Figura 69 - Grfico dos planos fatoriais, que representam as perpendiculares em relao ao fator 1.
134
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
0,8
CHILOP.
II
Classe Crustcea
0,6
0,4
CRUSTACE
COLEM.
DIPLOP.
0,2
ARANAE
III
CAROS
I
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
DIP.
HYMENOP
-0,4
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Classe Insecta
Figura 70 - Grfico dos planos fatoriais, que representam as perpendiculares traadas em relao ao
fator 2.
Observando-se esse grfico, o grupo II, das variveis que esto contidas na
elipse menor, constata-se que so as variveis que possuem uma maior
representatividade em relao a classe Crustcea, pois esto localizadas distante da
origem, sendo que as demais variveis possuem baixa representatividade em
relao a este fator.
A Figura 71 representa os planos fatoriais, da relao entre variveis da
classe Insecta com as variveis da classe Crustcea da AF. Nestes planos foram
traadas perpendiculares em relao bissetriz dos planos, fazendo-se uma anlise
conjunta de duas classes.
Aps, encontra-se o significado, isto , atribui-se um nome para cada fator e
pode-se verificar como as variveis esto influenciando, concomitantemente, estes
fatores. Para tal, traa-se a bissetriz, que passa pelo primeiro e terceiro quadrantes
do plano fatorial, e, novamente, traa-se segmentos de reta perpendiculares
135
0,8
CHILOP.
II
0,6
Fator 2
0,4
CRUSTACE
COLEM.
DIPLOP.
CAROS
0,2
ARANAE
III
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
DIP.
HYMENOP
-0,4
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Fator 1
Figura 71 - Grfico dos planos fatoriais, da relao entre variveis do fator 1 com 2 em relao
bissetriz.
136
DIPLOP.
ISOP.
COLEM.
ANELID.
MOLUSC.
COLEOP.
CAROS
CRUSTACE
HEMIP.
CHILOP.
HYMENOP
ARANAE
DIP.
Classification Analysis:
137
A Figura 76, na opo Variables for analysis: mostra que todas as variveis
foram selecionadas, inclusive as suplementares, basta clicar em Ok.
138
139
0,5
DIPLOP.
II
*H2O
ISOP.
ARANAE
CRUSTACE
COLEM.
0,0
ACAROS
HYMENOP
*Temp
COLEOP.
HEMIP.
DIP.
-0,5
III
IV
-1,0
-1,0
-0,5
0,0
0,5
1,0
140
Ok.
141
Fator 1 x Fator 2
6
C2 C13
Fator 2: 18,10%
C14
C9
C15
C11
C12
C6
C10
C28
C8C27
C7
C22
C23
C25
C21
C17
C19
C26
C4C30
C24
C29
C16C5C18
C3
-2
C1
-4
-6
-8
-14
-12
-10
-8
-6
-4
-2
Active
Fator 1: 33,05%
142
representando estas cinco variveis. Pode-se concluir, ainda, que as coletas que
possuem uma maior contribuio, na formao da combinao linear da classe
Crustcea, a segunda e a dcima terceira coleta (C2 e C13), que representam as
variveis Aneldeos, Moluscos, Chilpodas e Diplpodes. O restante dos organismos
e coletas no apresentam representatividade significativa, em relao a estes dois
fatores.
Nos outros planos principais, que correspondem ao fator 1 x fator 3 e fator 1
143
5 REALIZANDO PESQUISAS
Neste captulo sero apresentados quatro estudos de casos, para
exemplificar o uso das tcnicas multivariadas.
O primeiro artigo que versa sob o ttulo: mtodos multivariados: uma
144
ARTIGO 1
MTODOS MULTIVARIADOS: UMA METODOLOGIA PARA AVALIAR A
SATISFAO DOS CLIENTES DA RBS-TV NA REGIO NOROESTE DO RS
1. Introduo
A crescente importncia atribuda ao setor de servios tanto na economia brasileira
quanto internacionalmente, vem levando diversas organizaes empresariais a refletirem
sobre os nveis adequados de excelncia na prestao e servios para os clientes.
Hoje em dia, o mercado vem forando as empresas em geral a buscarem um diferencial
ao focalizarem os servios como recursos para a agregao de valores aos produtos postos
disposio dos consumidores, classificando-os sob modernos parmetros de anlise, no que
tange aos desejos e as reais necessidades desses consumidores.
Tem-se observado ainda, principalmente a partir das ltimas dcadas do sculo XX, a
existncia de maior concorrncia nos mercados cada vez mais globalizados, o que tem levado
a uma grande exigncia por parte das empresas medida que elas passaram a adotar
estratgias focadas nos clientes. Tal movimento trouxe como conseqncia um aumento de
estudos e pesquisas relacionados com o comportamento do consumidor, tal como sugerem
Rossie e Fonseca (2000).
Alm disso, o setor de servios tem se caracterizado como aquele que mais emprega na
economia nacional. Externamente, esse setor encontra-se bastante diversificado, incluindo
145
uma elevada gama de atividades diferentes, que varia desde empreendimentos gigantescos,
que operam em uma base global, ate pequenas empresas que atendem a uma nica cidade ou
bairro.
Apesar dos servios se encontrarem presentes no cotidiano das pessoas e das
organizaes, foi somente a partir do advento da revoluo industrial que eles se tornaram
mais complexos e diversificados. A partir disso, o surgimento das profundas mudanas na
produo e nos setores financeiros, redes de transportes e de comunicaes levaram as
empresas a revisarem os seus mtodos e tcnicas de gesto, de forma a permitir uma maior
agilidade na tomada de decises e, conseqentemente, ganhos de mercado.
Na viso de Bateson e Hoffman (2001), o crescimento econmico acabou estimulando o
crescimento da indstria de servios, fazendo aumentar o nvel de prosperidade que levaram,
conseqentemente, as pessoas fsicas e jurdicas a ter menos tempo, optando com isso pela
troca de dinheiro por tempo, isto , as novas tecnologias trouxeram mudanas significativas
na natureza de diversos servios j existentes, bem como na criao de outros.
A nova postura tomada pelas organizaes em funo do novo cenrio econmico fruto
do mundo globalizado, tem levado as empresas a se posicionar no mercado procurando
atender as necessidades de um consumidor cada vez mais exigente.
Tm-se verificado ainda que o aumento e a capacitao das empresas concorrentes, em
funo de uma forte exigncia por parte dos clientes, vem fazendo com que a ampliao do
mercado de atuao da empresa junto a clientela no somente garanta um nvel de
lucratividade considervel, como tambm alavanque uma maior fidelizao dos seus produtos
ou servios.
No setor de servios Boiton e Lemon (1999) enfatizaram que cabe a empresa prestadora
da benfeitoria determinar a freqncia de seus contatos com os seus clientes, baseando-se em
avaliaes que fazem acerca de experincias com o servio que fora ofertado. Vale destacar
que os nveis dessa procura podem exercer um considervel impacto na lucratividade da
organizao no longo prazo.
Nesses termos, a qualidade do setor de servios de uma organizao, mais do que um
diferencial acaba representando uma condio sine qua non de sobrevivncia no mercado,
uma vez que a melhoria contnua da tecnologia, dos processos internos, das metas e dos
valores das organizaes leva a uma identificao das necessidades e dos desejos dos
consumidores visando fideliz-los a uma marca ou um servio prestado.
Finalmente, este trabalho encontra-se estruturado em cinco sees, a sabe: a segunda
seo faz uma breve reviso bibliogrfica sobre a qualidade e satisfao na prestao de
servios aos consumidores. A terceira seo mostra os aspectos metodolgicos. A quarta
seo evidencia os resultados empricos e a quinta seo traz as consideraes finais e
recomendaes para trabalhos futuros.
146
retornos crescentes, como tambm de lealdade por parte dos clientes atravs da gerao de
valor para os mesmos.
Para Anderson, Fornell e Lehmann (1994), a satisfao do consumidor afetada por trs
antecedentes ou determinantes, a saber: a qualidade percebida, o preo ou valor percebido e as
expectativas. A qualidade percebida refere-se a atual avaliao da performance da empresa, e
tende a influenciar positivamente na satisfao total do cliente em relao ao fornecedor.
Nesses termos, a qualidade percebida passa a ser um construto abstrato que procede, s
vezes, do objetivo e do afetivo. Tal definio passa a ser contrria quela de qualidade
objetiva de um produto, que se pode medir com relao a um certo nmero de caractersticas
observveis, como o nmero de defeitos, a durabilidade ou o preo [Crosby (1979) e Garvin
(1983)].
A qualidade ainda pode ser definida de forma abrangente amplamente na viso de
Zeithaml (1988) como superioridade ou excelncia. Por extenso, a qualidade percebida
vista como o julgamento do consumidor sobre a excelncia ou a superioridade global de um
produto ou de um servio. Essa qualidade percebida parece diferenciar-se, ento, da qualidade
objetiva ou real.
O segundo determinante da satisfao do consumidor o valor percebido ou o preo do
bem ou servio [Anderson, Fornell e Lehmann (1994); Fornell et al. (1996)]. A qualidade em
relao ao preo possui um impacto direto sobre a satisfao do consumidor. Ainda podendo
ser ressaltado o relacionamento existente entre a qualidade da oferta e o seu preo, bem como
os efeitos que confundem tal relao.
J o terceiro determinante da satisfao refere-se as expectativas criadas pelo
consumidor, bem como o conhecimento acumulado sobre a qualidade das ofertas de um dado
fornecedor. Busca-se avaliar se a qualidade atual tende a influenciar a satisfao do
consumidor, assim como, se as experincias passadas tambm so responsveis por essa
influncia, representadas pelas expectativas. Soma-se a tais as previses em relao
capacidade do fornecedor de manter a qualidade no futuro.
Kotler (2000), mostra que os clientes de hoje so mais difceis de serem agradados. Eles
so mais inteligentes, mais conscientes em ralao aos preos praticados, mais exigentes,
perdoam menos e so abordados por mais concorrentes com ofertas similares ou mesmo
melhores.
Logo, a reteno de clientes encontra-se intrinsecamente ligado aos conceitos do
comportamento do consumidor, no que tange a recompra e a atitude positiva em relao aos
produtos ou servios ofertados pelas organizaes, culminando com a forma de
relacionamento empresa-cliente denominada de lealdade.
Spreng, Mackenzie e Olshavsky (1996), tambm enfatizam que os desejos dos
consumidores devem ser includos como um determinante fundamental na satisfao dos
mesmos. Os resultados da satisfao ou insatisfao surgem quando se comparam as
percepes de performances de um produto, tanto com as expectativas, como tambm, com os
desejos dos indivduos. Nesse prisma, a satisfao advm no somente das expectativas e dos
desejos em relao ao bem ou servio, mas tambm, fruto das informaes nas quais tais
expectativas se baseiam.
De acordo com Olivier (1980) os consumidores criam as expectativas em relao a um
determinado bem ou servio antes de sua compra. As expectativas so comparadas ao
desempenho real assim que o consumidor compra ou usa o produto ou servio. Logo, as
expectativas podem ser confirmadas quando um produto tem o desempenho esperado.
Todavia, tais expectativas podem no ser confirmada quando o produto tem um desempenho
abaixo do esperado, ou confirmadas, quando apresenta um desempenho superior ao esperado
[Churchill e Surprenant (1982); Evrard (1993)].
147
Considerando que a qualidade dos servios prestados por diversas organizaes passou a
ser um fator competitivo relevante na conquista de novos mercado, percebe-se a existncia de
uma vasta literatura sobre esse tema, de forma que fornece s empresas interessadas no tema,
importantes benefcios estratgicos, tais como, a segmentao de mercados, retornos sobre
investimentos, reduo de custos e aumento da produtividade [Parasuraman et al. (1985)].
Gummesson (1998, p. 244) colabora com essa discusso mencionando que a qualidade
em servios como uma das contribuies evoluo do paradigma do marketing tradicional.
Isso pode ser bem compreendido caso a qualidade seja considerada como uma resposta
subjetiva do consumidor acerca do desempenho do prestador de servios. Trata-se de um
julgamento de natureza pessoal, cujo conceito extremamente relativo, formado por cada
cliente e, conseqentemente, mais difcil de ser mensurado.
No se podem esquecer ainda das vises de Bateson e Hoffman (2001, p. 363) a respeito
do que venha ser qualidade, isto :
...uma maneira de obter sucesso entre servios concorrentes.
Principalmente quando vrias empresas que fornecem os servios
quase idnticos concorrem em uma rea pequena, como acontece com
os bancos, onde estabelecer a qualidade de servio pode ser a nica
maneira de se diferenciar.
Nessa mesma linha de raciocnio Gronroos (1993) tambm afirma que uma das formas
de administrar a qualidade de um servio prestado consider-lo do ponto de vista do cliente.
Neste caso, os consumidores escolhem os prestadores de servios ao comparar as percepes
que tm do servio percebido com os servios esperados, que chamado de qualidade de
servio percebida.
Eleutrio e Souza (2002), relatam que os programas de qualidade que no levem em
conta o significado de qualidade para que os clientes no obter resultados satisfatrios.
somente quando o prestador de servios compreender como os servios sero avaliados pelos
clientes que ser possvel saber gerenciar essas avaliaes e como influenci-las na direo
desejada.
Zeithaml, Parasuraman e Berry (1990), enfatizam que a chave para assegurar uma boa
qualidade de servios obtida quando as percepes dos clientes excedem as suas
expectativas. Embora tal raciocnio seja vlido, no basta apenas compreender a importncia
de fornecer servios com boa qualidade. necessrio haver um processo contnuo de
monitorao das percepes dos clientes sobre a qualidade do servio, identificando as causas
das discrepncias encontradas e adotar mecanismos adequados para a melhoria dos servios
prestados.
Finalmente, deve ser observado que existe uma gama de teorias que procuram explicar a
satisfao dos consumidores por um bem ou servio, que em sua grande maioria, convergem
para a opinio de que, mesmo com nomenclatura diferentes, tais teorias concordam com o
conceito de que o julgamento acontea por meio de padres pr-determinados (expectativas) e
a comparao de tais expectativas com um desempenho do produto ou servio, sendo que o
desempenho avaliado subjetivamente, pelo consumidor, tal como fora mencionado
anteriormente, com base em suas experincias e cognies.
3. Aspectos Metodolgicos
3.1. Caracterstica da Pesquisa e Composio da Amostra
148
149
Formular o problema;
Construir a matriz de correlao;
A Anlise Fatorial (AF) teve incio, no princpio do sculo XX com Karl Pearson e
Charles Spearman, que estudaram as medidas de inteligncia. Essa tcnica no se difundiu
com maior velocidade devido dificuldade em proceder aos clculos, os quais foram
facilitados com o advento do computador. Matematicamente a AF semelhante Anlise de
Regresso Mltipla, pelo fato de cada varivel ser expressa como uma combinao linear de
fatores subjacentes (Malhotra, 2001). Em pesquisas de marketing, por exemplo, pode haver
uma srie de variveis, a maioria correlacionadas as quais necessitam serem reduzidas de tal
forma que:
(k)
trR
= Variao explicada
(1)
150
2
2
(2)
Onde:
r1, r2,...rn = correlao das variveis
r11, r12,...rkn = correlaes parciais
Os valores crticos para a interpretao do teste KMO so:
151
4. Resultados Empricos
Antes de se verificar os resultados, segue abaixo o questionrio utilizado, onde cada
questo encontra-se resumida em uma palavra, para melhor interpretao das variveis em
estudo.
a) Questo 1: A RBSTV Santa Rosa como opo de mdia opo;
152
TABELA 1 Estatsticas descritivas das variveis analisadas por meio de uma escala de
Likert.
Variveis
N
Mdia
Desvio
Valor
Valor
Padro
Mnimo
Mximo
Opo
155
4,000000
0,693195
2
5
Retorno
155
3,696774
0,824733
1
5
Anncio
155
3,774194
0,810230
1
5
Necessidade
155
3.812903
0,745437
2
5
Horrio
155
3,890323
0,743524
1
5
Atendimento
155
4,425806
0,654142
2
5
Solicitao
155
4,051613
0,700589
1
5
Disponibilidade
155
4,167742
0,611782
1
5
Presteza
155
4,238710
0,510715
3
5
Pontualidade
155
4,193548
0,645632
1
5
Ps-Venda
155
3,832258
0,903236
1
5
Preo
155
2,980645
1,053571
1
5
Condio
155
3,722581
0,793934
1
5
Continuar
155
3,961290
0,710623
1
5
Com relao a Tabela 1, pode-se verificar que as mdias das variveis analisadas
encontram-se em torno de quatro, ou seja, havendo um predomnio do nvel satisfatrio,
ficando apenas a varivel preo num nvel insatisfatrio.
Pode-se verificar, atravs do coeficiente de variao de Pearson, que a mdia dessas
variveis significativa estatisticamente, em torno de 22%, com exceo da varivel preo,
onde o coeficiente de variao est em torno de 33%, evidenciando que o preo a varivel
que revela maior disperso dentre a opinio dos entrevistados. A mdia de respostas da
153
varivel preo, foi igual 2,98, o que mostra que os valores representados pela opo muito
insatisfeito e insatisfeito, influenciaram a mdia para baixo.
Por outro lado o desvio-padro das variveis considerado baixo, no ocorrendo uma
variao elevada entre as respostas obtidas.
Como anlise preliminar, a AF utilizar o procedimento de anlise de cluster, pois, por
meio desta, ser possvel identificar quais so as variveis que pertencem a um mesmo grupo,
isto , possibilitando identificar quais variveis o cliente identifica como tendo as mesmas
caractersticas para ele, colaborando dessa forma, com a empresa em possveis formulao de
estratgias de vendas dos seus servios.
Na Figura 1, mostra-se o comportamento do dendograma com todas as variveis, no
qual pode-se identificar a formao de trs clusters, obtidos por meio de um corte transversal
feito na maior distncia entre os clusters, ou a critrio do pesquisador. O primeiro cluster
formado pela varivel preo, o segundo pelas variveis solic, pontu, prest, dispon e atend, e o
ltimo cluster formado pelas variveis pos-ven, condi, necess, anunc, hora, retor, cont e op.
22
20
18
16
14
12
10
8
6
4
2
PREO
PONTU
SOLIC
DISPON
PREST
POS-VEM
ATEND
NECESS
CONDI
HORA
ANUNC
CONT
RETOR
OP
154
22
20
18
16
14
12
10
8
6
4
PREO
CONT
SOLIC
PREST
DISPON
ATEND
POS-VEM
CONDI
HORA
NECESS
RETOR
Linkage Distance
18
16
14
12
10
8
6
PREO
CONT
SOLIC
PREST
ATEND
POS-VEM
CONDI
HORA
NECESS
155
22
20
Linkage Distance
18
16
14
12
10
6
PREO
POS-VEM
CONT
PREST
SOLIC
CONDI
NECESS
156
Var. Explicada
acumulada (%)
36,28859
50,6758
58,7079
65,9374
71,9577
76,8807
81,5557
85,2591
88,5060
91,5018
94,1958
96,5779
98,6254
100,0000
De acordo com a expresso denotada por (1), o percentual de varincia explicada pelo
primeiro autovalor (5,080402 / 14) 100 = 36,28859% o autovalor foi dividido por 14, pois
este nmero corresponde ao trao da matriz de correlao, onde a diagonal principal
formada por valores iguais a 1. Aps a extrao dos autovalores e percentual da varincia
explicada, necessrio decidir-se pelo nmero de fatores a serem retirados para anlise. Para
isso, utiliza-se o mtodo grfico sugerido por Cattel (1996), tal como fora mencionado
anteriormente.
Atravs do exame do grfico dos autovalores disposto na figura 1, observou-se que uma
queda menos acentuada que ocorreu entre o quarto e o quinto fator e analisando-se os
autovalores superiores a 1, observa-se que pode-se considerar at o quarto fator.
6,0
5,5
5,0
4,5
4,0
Valor
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
1
10
11
12
13
14
Nmero de autovalores
157
Fator 1
0,221531
0,908799
0,069512
0,169031
0,151071
0,059963
0,051392
0,061755
0,032148
-0,003214
0,087342
0,098312
0,096515
0,227100
Fator 2
0,076034
0,027101
0,068193
0,043602
0,104508
0,174678
0,181868
0,338567
0,899164
0,500990
0,044603
0,047109
0,020086
0,124524
Fator 3
0,076784
0,176180
0,257641
0,921555
0,120350
0,054225
0,009308
0,002407
0,048690
0,024570
0,070342
0,104243
0,074624
0,131118
Fator 4
0,088129
0,101774
0,139739
0,075349
0,085737
0,107361
0,101522
0,023228
0,021091
0,027252
0,059976
0,268289
0,927210
0,196862
0,9
0,8
0,7
0,6
Fator 2
PONTU
0,5
0,4
DISPON
0,3
SOLIC
ATEND
0,2
CONT
HORA
OP
ANUNC
PREONECESS
POS-VEM
CONDI
0,1
RETOR
0,0
-0,1
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Fator 1
158
representado pela varivel prest qual foi perguntado sobre a presteza do agente quando
cheguei na reunio, com mdia de resposta igual a 4,238710, e um fator loading de
0,899164. Sendo essas variveis de maior evidncia na anlise.
As variveis, que esto dentro da elipse, so as que possuem pouca expresso na
composio do fator, ou seja, no so significativas ao nvel de 7%. Logo, o cliente, ao
veicular sua empresa, leva em considerao o retorno que ir obter com a mdia, alm da e a
presteza do agente no momento da negociao.
1,0
NECESS
0,8
Fator 3
0,6
0,4
ANUNC
RETOR
0,2
PREOHORA
CONDI
POS-VEM
ATEND
PREST
PONTUSOLIC
DISPON
CONT
OP
0,0
-0,2
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Fator 1
CONDI
0,8
Fator 4
0,6
0,4
PREO
CONT
0,2
ANUNC
ATEND
SOLIC
HORA OP
POS-VEMNECESS
PONTU
DISPON
PREST
RETOR
0,0
-0,2
-0,2
0,0
0,2
0,4
Fator 1
0,6
0,8
1,0
159
5. Consideraes Finais
As ferramentas estatsticas, em nvel de anlise exploratria de dados, sempre se
mostraram importantes na tomada de decises. Neste estudo pde-se verificar como os
clientes da RBS TV conseguem ver a empresa e os resultados que eles esperam, aps o
anuncio de sua empresa neste veculo de comunicao. Aps a realizao da pesquisa de
campo e as anlises necessrias, chegou-se aos seguintes resultados finais:
Com os dados obtidos do questionrio, procedeu-se, primeiramente, ao uso da
estatstica descritiva, a qual forneceu, por meio da mdia, o grau de satisfao por parte dos
clientes, predominando-se o grau satisfeito (4 na escala de Likert) na maioria das questes,
com exceo da varivel preo, que forneceu grau insatisfeito (2 na escala de likert).
Porm, existe uma quantidade significativa de clientes que esto indecisos. Baseando-se
no que fora mencionado anteriormente, cabe RBS-TV verificar o porqu desse quadro e
propor alternativas diferenciadas estes clientes para que eles venham se tornar clientes
com nveis de aceitao satisfatrio, perante aos servios prestados.
Por meio dos mtodos estatsticos multivariados, procedeu-se extrao das
componentes principais a qual proporcionou uma reduo no nmero de variveis originais e
pode-se afirmar que os clientes da RBS TV desse municpio escolhem esse veculo de
comunicao pela seguinte ordem de importncia:
retorno que conseguem com a mdia;
presteza do agente no momento da venda da mdia;
condies de pagamento;
alternativas de anncio.
Nesse prisma, os clientes da RBS-TV, primam pelo retorno que conseguem investindo
em publicidade na RBS-TV, pela presteza do agente no momento da venda da publicidade,
pelas condies de pagamento e pelas alternativas de anncio para a propaganda de sua
empresa. Em suma a RBS-TV deve manter maior ateno quanto ao retorno que o anunciante
tem com a mdia e propor mais alternativas de anncio.
Sugere-se ento, que a empresa mantenha a poltica que vem sendo adotada, mas
tentando manter os clientes j cadastrados que anunciam neste veculo de comunicao e que
desenvolvam uma campanha para a obteno de novos clientes para a emissora.
Antecedente tcnica de AF, procedeu-se com uma anlise de cluster para identificar as
variveis que pertencem ao mesmo cluster, possibilitando, com isso, verificar quais variveis
os clientes identificam com o mesmo efeito.
Como anlise final, aps a retirada de variveis com o mesmo significado dentro de
cada cluster, obteve-se a formao de dois clusters, onde o primeiro encontra-se sozinho a
varivel preo, e no segundo as variveis ps-vend, cont, prest, solic, cond e
necess.
Por fim, a tcnica de anlise fatorial se mostrou eficiente na identificao das variveis
que apresentavam uma maior contribuio para a formao do fator, sendo desta maneira
160
possvel identificar as variveis que devam receber uma maior ateno pela agncia de
telecomunicao e que tambm possibilitou conhecer o que realmente os empresrios que
utilizam os servios da RBS-TV, desejam no momento de contratar os servios da emissora
6. Bibliografia
ANDERSON, Eugene W., FORNELL, Claes, LEHMANN, Donald R. Customer satisfaction,
market share, and profitability: findings from Sweden. Journal of Marketing, v. 58, July 1994.
BERRY, L. Servios da Satisfao mxima Guia prtico de ao. Rio de Janeiro: Campus,
1996.
CHURCHILL, Gilbert A., SURPRENANT, Carol. An investigation into the determinants of
customer satisfaction. Journal of Marketing Research, v. 19, Nov. 1982.
EVRARD, Y. La satisfaction des consommateurs: tat des recherches. Anais do 17o.
ENANPAD. p. 59-86, 1993.
FORNELL, Claes, JOHNSON, Michael D., ANDERSON, Eugene W., CHA, Jeasung,
BRYANT, Barbara E. The American customer satisfaction index: nature, purpose, and
findings. Journal of Marketing, v. 60, Oct. 1996.
JOHNSON, Michael D. Comparability in customer satisfaction surveys: products, services,
and government agencies. Seminar on new directions in statistical methodology, Washington,
DC. Working Paper 23, v. 1, p. 99-120, 1995.
JOHNSON, Michael D. Comparability in customer satisfaction surveys: products, services,
and government agencies. Seminar on new directions in statistical methodology, Washington,
DC. Working Paper 23, v. 1, p. 99-120, 1995.
KOTLER, P. Administrao de Marketing, anlise, planejamento, implementao e controle.
4 ed., So Paulo: Atlas, 1994.
MALHOTRA, N.K. Marketing Research: an applied orientation. New Jersey : Prentice-Hall,
1996.
OLIVER, Richard L. A cognitive model of the antecedents and consequences of satisfaction
decisions. Journal of Marketing Research, v. 17, p. 460-469, Nov. 1980.
PARASURAMAN, A., VALARIE, A. Z. e LEONARD L. B. A conceptual model of service
quality and its implications for future research. Journal of Marketing, vol. 49, Fall, pp. 41-50.
1985.
PEREIRA, Julio Csar R. Anlise de Dados Qualitativos Estratgias Mercadolgicas para as
Cincias da Sade, Humanas e Sociais. 3 ed. So Paulo: Editora da Universidade de So
Paulo, 2001.
PLA, Laura. Anlisis Multivariado: Metodo de Componentes Principales. Departamento de
Produccin Vegetal. Universidad Nacional Experimental Francisco de Miranda. Coro, Falcn,
Venezuela, 1986.
SPRENG, Richard A., MACKENZIE, Scott B., OLSHAVSKY, Richard W. A reexamination
of the determinants of consumer satisfaction. Journal of Marketing, v. 60, July 1996.
ZEITHAML, Valarie A. Consumer perceptions of price, quality and value: a means-end
model and synthesis of evidence. Journal of Marketing, vol. 52, July, pp. 2-22. 1988.
161
ARTIGO 2
APLICAO DA ANLISE MULTIVARIADA EM DADOS DE RENDIMENTOS DE
ENSINO
162
4. Anlise descritiva
Para traar o perfil dos alunos e dos Colgios em estudo, inicialmente aplica-se uma anlise
descritiva, na qual a populao em estudo composta por 3360 alunos dos quatro Colgios
Militares. Nesta anlise, procura-se relacionar o rendimento com a origem do aluno, onde o
rendimento representado pela varivel Mdia Geral da Srie (MGS).
A Figura 1, representando todos os Colgios Militares, apresenta uma concentrao maior de
alunos concursados com rendimento bom e muito bom, enquanto os alunos amparados
concentram-se no rendimento bom. Ainda se nota que o rendimento abaixo da mdia cinco,
ou seja, com meno insuficiente, encontra-se apenas nos alunos amparados.
163
1200
1000
800
600
400
200
0
B
MB
Amparado
MB
Concursado
Meno
400
350
300
250
200
150
100
50
0
B
MB
Amparado
MB
Concursado
Meno
4. Anlise multivariada
Para esta anlise, utilizam-se os dados de comportamento do CMSM e CMC,
armazenados no SGE, porque apenas estes utilizam o mdulo de controle de comportamento.
Aqui, procura-se identificar a relao entre o grau de comportamento e o rendimento escolar,
considerando-se as disciplinas da 3 srie do Ensino Mdio.
De acordo com a matriz de correlao, apresentada na Tabela 1, que mostra o interrelacionamento das variveis, verifica-se uma baixa correlao das disciplinas com o grau de
comportamento.
164
Hist
LEM Lit
1,000
0,528
0,702
0,415
0,415
0,544
1,000
0,615
0,570
0,515
0,542
Port
Mat
Qui
1,000
0,685 1,000
0,542 0,706 1,000
0,611 0,658 0,773 1,000
A nica disciplina que no apresentou alta correlao com as demais foi Educao
Fsica (EF). Nas demais disciplinas, existe uma alta correlao entre as variveis, o que
comprova a afirmao de que um aluno que apresenta um bom desempenho em uma
disciplina tambm apresenta nas outras, mas no significa que ele tenha um bom
comportamento ou bom rendimento em Educao Fsica.
A Figura 3 mostra o comportamento do dendograma com todas as variveis, na qual
pode-se identificar a formao de dois clusters, os quais possuem as variveis de maior
relevncia dentro do conjunto.
Diagrama de rvore das Variveis
Mtodo de Ward
Distncias Euclidianas
60
Distancias da ligao
50
40
30
20
GrauComp
EF
Bio
Port
Lit
Fis
Qui
Geo
LEM
Mat
Hist
10
165
usadas apenas as duas primeiras componentes para uma avaliao das variveis. Utilizaram-se
os autovalores, estimaram-se os autovetores para escrever a combinao linear que dar
origem aos fatores.
Depois de definidos os fatores de estudo, representam-se graficamente, na Figura 12,
as variveis no plano fatorial para comprovar os agrupamentos formados.
0,9
EF
0,8
0,7
GrauComp
0,6
Fator 2
0,5
0,4
Hist
0,3
Fis
Geo Qui
Lit
Mat
0,2
0,1
-0,1
0,0
Port
Bio
LEM
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Fator 1
166
Aprovado
499
25
17
541
Aprovado c/PR
8
28
4
40
Reprovado
0
0
1
1
Aps a identificao das variveis significantes, parte-se para uma aplicao prtica,
onde, informa-se o provvel grau para as disciplinas selecionadas pela funo discriminante, e
apresenta-se um resultado gerado pela classificao.Utiliza-se, como exemplo um suposto
aluno a ser testado no modelo criado. Informa-se para Matemtica o grau igual 5,5, para
Geografia, o grau igual a 6 e Fsica, o grau igual a 6. Para a classificao do aluno foi
utilizada a distncia de Mahalanobis.
Dessa forma, pode-se afirmar, com 98,42209% de certeza, que o referido aluno foi
classificado na situao Aprovado sem realizar recuperao no final do ano letivo, pois o
menor valor da distancia a dos Aprovados.
5. Concluses e recomendaes
Utilizando tcnicas estatsticas multivariadas, baseado no rendimento dos alunos,
elaboraram-se alguns modelos de perfil dos Colgios e dos alunos. Nas trs anlises
realizadas, verifica-se a relao entre alguns indicadores de qualidade, disponibilizando,
assim, subsdios para a tomada de decises da administrao.
Na primeira anlise, pode-se identificar um padro entre os Colgios e classificar as
escolas de acordo com o modelo formado, onde se conclui que os alunos concursados
apresentam melhor desempenho que os amparados, considerando-se a mdia global da srie.
Constata-se, ainda, que h um maior nmero de alunos com rendimento baixo nos amparados,
principalmente no CMRJ. A representao do rendimento, comparada com a origem do aluno,
atravs de histogramas na anlise descritiva, disponibiliza uma viso clara das distribuies
formadas, o que comprova o eficiente uso da tcnica empregada.
Na segunda anlise, verifica-se a relao entre as disciplinas e o comportamento, onde
se caracterizam dois Colgios, e classificam-se os alunos de acordo com o modelo formado.
Atravs da anlise de cluster, pode-se identificar um agrupamento, que representa os atributos
da rea psicomotora/afetiva, e outro, formado pelas reas de cincias/cognitivas.
Nota-se, ainda, um agrupamento das disciplinas de Lngua Portuguesa e Biologia,
assim como Qumica e Fsica. Esses esto agrupados porque apresentam mdias semelhantes,
ou seja, um aluno que tem bom rendimento em uma disciplina, tambm apresenta esta
caracterstica na outra disciplina do grupo.
Usa-se anlise fatorial, por ser uma tcnica utilizada na tentativa de reduzir um grande
conjunto de variveis para um conjunto mais significativo, representado pelos fatores, onde se
nota que os agrupamentos formados pela anlise fatorial so semelhantes aos formados na
167
168
Referncias
BRAGA, Luis Paulo Vieira. Introduo minerao de dados. Rio de Janeiro: E-Papers
Servios Editoriais, 2004.
FERRAUDO, Antnio. Anlise multivariada. So Paulo: StatSoft South Amrica, 2005.
GIL, Antnio de Loureiro. Qualidade Total nas Organizaes. So Paulo: Atlas, 1992.
LOUZADA NETO, F.; DINIZ, C.A.R. Data mining: uma introduo. So Paulo: Associao
Brasileira de Estatstica, 2000.
MALHOTRA, Naresh K. Pesquisa de Marketing: uma orientao aplicada. Porto Alegre:
Bookman, 2001.
MAGNUSSON, Wiliam E.; MOURO, Guilherme. Estatstica sem matemtica. Londrina,
PR: Planta, 2003.
MORRISON, D.F. Multivariate statistical methods. 2. Ed., New York: Mc Graw Hill,
1976.
SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDERSHAN, S. Sistema de banco de
dados. So Paulo: Makron Books, 1999.
SNEATH, P. H. A.; SOKAL, R. R. Numerical taxonomy. San Francisco, USA: Freeman
Co.,1973.
STAIR. R. M. Princpios de sistemas de informao: uma abordagem gerencial. 2. ed. Rio
de Janeiro: LTC, 1998.
VIRGILLITO, Salvatore B. Estatstica aplicada. So Paulo: Alfa-Omega, 2004.
WERKEMA, M. C. C. As ferramentas da qualidade no gerenciamento de processos. Belo
Horizonte: Fundao Christiano Ottoni, 1995.
169
ARTIGO 3
PRODUO AGRCOLA: UMA SINTESE MEDIANTE TCNICAS ESTATSTICAS
Lorena Vicini
Adriano Mendona Souza
Resumo
Neste trabalho, tem-se por objetivo analisar a produo de gros no setor agroindustrial, nos
estados brasileiros, no perodo de 1995 a 2002. Para que se cumpra este objetivo, sero
utilizadas tcnicas da anlise multivariada e a anlise de varincia. A anlise de varincia
utilizada como uma tcnica confirmatria, em relao aos resultados obtidos na anlise
multivariada. Mediante anlise dos resultados, foi possvel identificar, no decorrer deste
perodo, as caractersticas regionais, ou seja, o tipo de cultura que predominante em cada
regio. Concluiu-se, ento, que os estados que possuem os maiores ndices de produo de
gros do pas, e o tipo de cultura que predomina nesses, so as seguintes: arroz no RS; soja,
trigo, milho e feijo no PR; caf em MG. Outras regies tambm produzem, mas com uma
menor representatividade em relao produo nacional de gros, so os estados de RO, AC,
AM, RR, AP, TO, MA, PI, CE, RN PB, PE, AL, SE BA, ES, RJ, SC, DF. Os resultados, aqui
obtidos, podem contribuir para a formao de polticas de incentivo agroindstria nacional,
bem como no desenvolvimento das regies que no esto apontados como destaque na
produo.
1 Introduo
No restam dvidas sobre a importncia da cincia e da tecnologia agroindustrial
para o desenvolvimento do setor rural. No Brasil, e no mundo, estudos comprovam que novas
variedades de plantas, aliadas a novos mtodos de cultivo, elevaram a produtividade, e/ou
reduziram custos de produo acelerando o desenvolvimento do setor rural.
Agroindstria, hoje, sinnimo de agregao de valor; de adequao de matriasprimas; de preservao e segurana dos alimentos; de desenvolvimento de processos e
produtos; de desenvolvimento de equipamentos; de construo e aperfeioamento de modelos
de gesto; de convenincia no consumo e de sistemas de produo construdos em bases
sustentveis. A funcionalidade da agroindstria, portanto, constitui uma dimenso econmico,
social e ambiental de grande importncia para a sociedade brasileira (LEITE, 04/03/05).
Os dados divulgados, sobre a agroindstria brasileira, mostram um significativo
crescimento na produo nacional, o qual s em 2003 cresceu 1,6%, atingindo, pelo terceiro
ano consecutivo, uma expanso acima da indstria em geral, que no ano de 2004 registrou
apenas um discreto crescimento de 0,3%. De acordo com dados divulgados, no dia 13, pelo
Instituto Brasileiro de Geografia e Estatstica (IBGE), de 2000 para 2003, a atividade
industrial nacional cresceu 4,5%, e somente a agroindstria avanou 13,3% (IBGE, 10/05/05).
Esse crescimento econmico est sendo possvel devido aos incentivos fiscais, no
setor rural da economia, e aos avanos da tecnologia voltados para agroindstria, pois hoje
no mais existem solos que possam ser ditos no cultivveis, j que, com as devidas
170
correes, esse passa a ser produtivo. Outro fator, que deve ser levado em considerao, o
grande territrio brasileiro. Isso tambm contribui para que o pas se destaque, cada vez mais,
em relao ao cenrio mundial na produo de alimentos.
A agroindstria um dos principais segmentos da economia brasileira, com
importncia tanto no abastecimento interno como no desempenho exportador do Brasil. Uma
avaliao recente estima que sua participao no Produto Interno Bruto (PIB) seja de 12%,
tendo uma posio de destaque entre os setores da economia, junto com a qumica e a
petroqumica. Na dcada de 70, a agroindstria chegou a contribuir com 70% das vendas
externas brasileiras. Atualmente, essa participao est em torno de 40%, no s pela
diversificao da pauta de exportaes, mas tambm pela tendncia queda dos preos das
commodities agrcolas, nos ltimos 20 anos. Ainda assim, o setor cresceu e aumentou o valor
das exportaes em quase todos seus segmentos (SILVEIRA, 04/03/05).
O objetivo do trabalho a analisar, por meio de tcnicas estatsticas, como comportouse a produo de gros no pas, no perodo de 1995 a 2002, de forma a mostrar,
estatisticamente, as diferenas significativas entre as regies produtoras.
2 Metodologia
Neste trabalho, buscou-se demonstrar as diferenas existentes entre as regies do Brasil
atravs de tcnicas estatsticas uni e multivariadas, para a caracterizao de todos estados
brasileiros.
Inicialmente, elaborou-se um banco de dados constitudo pelos 27 estados brasileiros e pela
produo de gros. Essa produo representada pelas seguintes culturas: soja, milho, caf,
trigo, girassol, feijo e arroz, entre outras, perfazendo um total de 26 variveis, num perodo
de oito anos. As culturas em estudo so constitudas pelos produtos de maior expresso de
produo, nos 27 estados brasileiros com coletas anuais.
Posteriormente, uma anlise descritiva foi conduzida para se conhecer o perfil de produo de
cada estado brasileiro. Para efetuar a anlise, foi realizada uma mdia bianual das produes,
pois esta possibilitou uma melhor visualizao das variveis, no sobrepondo, graficamente,
as culturas analisadas. Esta anlise tambm possibilitou uma investigao dentro de cada
cluster formado, pois estes foram formados de acordo com a produo ocorrida em cada
cultura, ou seja, as produes semelhantes permaneceram em um mesmo grupo. Com isso, foi
possvel identificar, graficamente, as oscilaes ocorridas no perodo de 1995 a 2002.
Devido natureza dos dados, a anlise multivariada foi aplicada para se entender o
inter-relacionamento entre os estados e a sua produo. A anlise foi realizada a partir da
matriz constituda por 27 estados e caracterizada por 26 variveis, que representam os
produtos.
Para a associao da produo foi utilizada a anlise cluster (AC), agrupando os
produtos, em funo de suas caractersticas fenotpicas e dendomtricas. Essa anlise foi
aplicada utilizando-se o mtodo aglomerativo hierrquico, que possibilita vrias reunies
entre os produtos e os anos que possuem as mesmas caractersticas, ou seja, possuem uma
mdia de produo semelhante. O processo de aglomerao tem incio com as variveis que
possurem maior semelhana, e este procedimento se repetir at que a ltima varivel esteja
agrupada.
Para que esta unio, entre grupos, seja possvel, utiliza-se o mtodo de encadeamento
nico (single linkage) que se baseia na distncia mnima, utilizando a regra do vizinho mais
prximo.
171
3 Resultados e discusses
Em quase todas as reas de aplicao pesquisas so realizadas, e vrias variveis so
observadas. Essas variveis, em geral, no so independentes e, por isso, devem ser analisadas
conjuntamente. Anlise Multivariada a rea da Estatstica que trata desse tipo de anlise.
Vrias so as tcnicas que podem ser aplicadas aos dados. Sua utilizao depende do tipo de
dado que se deseje analisar, e dos objetivos do estudo.
Inicialmente, realizou-se uma anlise de cluster para verificar os grupos formados no
dendograma, ou seja, aquelas variveis que possurem as mesmas mdias de produo iro
formar grupos homogneos, as variveis que possurem uma produo diferenciada das
demais formaro grupos heterogneos.
A Figura 01 mostra o dendograma formado a partir da matriz inicial de variveis,
mediante a tcnica da anlise de cluster. Esses grupos foram definidos pelo traado de uma
linha paralela ao eixo horizontal, denominada Linha Fenon. Optou-se por traar esta linha
entre as alturas 8x106 e 1x107, que representam as distncias euclidianas de ligao entre as
vaiveis. Observa-se a formao de trs grupos distintos. O grupo I representado por aqueles
produtos cuja produo acontece em menor escala. So as variveis: AR, que representa a
produo de arroz; FE, que representa a produo de feijo; GI, que representa a produo de
girassol; TRI, que representa a produo de trigo e CA, que corresponde produo de caf,
formando, assim, o primeiro grupo do dendograma. Enquanto que no grupo II e III reuniu-se
os produtos que so cultivados em maior escala, em relao produo nacional. O grupo II
formado pela varivel MI, que corresponde produo de milho, e o grupo III representado
pela varivel SO, que corresponde produo de soja. Pode-se observar que os trs grupos
formados so distintos, ou seja, isto significa dizer que existe homogeneidade dentro de cada
grupo e heterogeneidade entre os grupos. Isto , as variveis esto agrupadas por uma
caracterstica comum. Observa-se, tambm, que a produo de soja e a produo de arroz so
172
as mais distantes, pois esto nos extremos do dendograma. As produes mais similares so
as de feijo e as de girassol. Vale lembrar, aqui, que a altura do dendograma corresponde s
mdias de produo de cada cultura.
Dendograma
1,6E7
1,4E7
1,2E7
Distncia
1E7
8E6
6E6
4E6
AR 95/96
AR 97/98
AR 99/00
FE 95/96
AR 01/02
FE 97/98
FE 99/00
FE 01/02
GIR 99/00
TRI 95/96
GIR 01/02
TRI 97/98
TRI 99/00
CA 95/96
TRI 01/02
CA 97/98
CA 99/00
MI 95/96
CA 01/02
MI 97/98
MI 99/00
MI 01/02
SO 95/96
SO 97/98
SO 99/00
SO 01/02
2E6
Aps esta anlise, efetuou-se o estudo da ACP e AF, com a inteno de se obter
quais as variveis mais importantes, e entender o seu inter-relacionamento.
Embora existam diversos mtodos para encontrar os autovalores e autovetores, a
ACP a que melhor desempenha este papel, sem que o pesquisador possua um profundo
conhecimento, pois dessa forma sempre se tem a garantia de se obter fatores nicos e nocorrelacionados (JOHNSON,1995).
Existem dois mtodos para determinar o nmero de componentes a serem utilizados
na anlise. O primeiro consiste em selecionar aquelas componentes cujos valores prprios
sejam superiores a 1, ou que possurem uma varincia igual ou superior a 70%, conforme
Tabela 01. Esse critrio de seleo sugerido por Kaiser (1960 apud MARDIA, 1979).
Neste trabalho, as cinco componentes iniciais acumulam 98,63% da varincia total
dos dados, ou seja, aproximadamente 98,63% da variabilidade dos dados explicada pelas
cinco primeiras componentes. Isso mostra que, de 26 variveis com 27 observaes, passa-se
a utilizar cinco componentes com 27 observaes que representam o conjunto original,
havendo, dessa forma, uma reduo de dimensionalidade do problema, com perda de
explicao de 1,37%.
173
Autovalores
Varincia total
Autovalores
acumulados
Total
acumulado
em %
12,83
49,35
12,83
49,35
6,40
24,63
19,23
73,98
2,80
10,80
22,04
84,78
1,92
7,39
23,96
92,17
1,69
6,47
25,65
98,64
0,32
1,22
25,96
99,86
0,04
0,14
26,00
100,00
14
12
Valor
10
0
Nmero de autovalores
174
representando o fator 1, que representado pelas variveis MI, TRI e SO, em relao ao fator
2, que representado pela varivel CA.
Na Figura 03, pode-se verificar que os estados esto distribudos de acordo com sua
representatividade em relao produo nacional de gros. Os estados que esto mais
afastados da origem so os que melhor representam esta produo.
Na Figura 04, pode-se observar a distribuio de variveis, os produtos. Mediante
esta figura verifica-se que as variveis, que melhor representam o fator 1 em relao ao fator
2, so aquelas que esto bem prximas ao crculo unitrio. Analisando-se as duas figuras,
simultaneamente, pode-se concluir que a varivel MI a que melhor representa o primeiro
plano principal, sendo esta a mais significativa e representa o estado do Paran. Este estado
tambm representa as variveis SO, TRI e FE, tendo, estas, uma menor representatividade. A
varivel AR representada pelo estado do Rio Grande do Sul e a varivel CA pelo estado de
Minas Gerais.
Fazendo-se uma anlise dos cinco fatores nos planos principais subseqentes, o
resultado encontrado anlogo ao primeiro plano principal, ou seja, as variveis milho, trigo,
soja e feijo so as que representam a produo do estado do Paran. A varivel arroz
representa a produo do estado do Rio Grande do Sul, e a varivel caf est representando a
produo do estado de Minas Gerais, no perodo de 1995 a 2002.
Projeo dos estados no plano principal fator 1 x fator 2
12
10
MG
8
6
Fator 2: 22,70%
4
2
SP
PR
SC
GO
0
-2
ES
BA
CE
RO
PE
PB
AL
RN
SE
DF
PI
PA
RJ
AC
AM
AP
RR
TO
MS MA
MT
-4
RS
-6
-8
-10
-12
-14
-20 -18 -16 -14 -12 -10
-8
-6
-4
-2
Fator 1: 54,74%
Active
175
FEFE
01/02
FE
95/96
FE97/98
99/00
Fator 2 : 22,70%
0,5
MI 01/02
95/96
97/98
MI
MI 99/00
0,0
TRI 95/96
97/98
TRI
TRI 01/02
SO
95/96
SO
01/02
TRI
99/00
SO
97/98
SO
99/00
AR
AR 95/96
97/98
AR
AR 99/00
01/02
-0,5
-1,0
-1,0
-0,5
0,0
0,5
1,0
Active
Fator 1 : 54,74%
Em estatstica, h muitas tcnicas que podem ser aplicadas para que seja realizada a
anlise dos dados. O ideal aplicar outras tcnicas que confirmem os resultados obtidos.
Devido a este fato, realizou-se uma anlise de varincia, que vem confirmar os resultados
obtidos com as tcnicas multivariadas, ou seja, verificar se existe diferena significativa entre
estes estados que melhor representam a produo nacional de gros. J que a primeira uma
anlise confirmatria, e a segunda exploratria.
Tabela 02: Anlise de varincia.
ANOVA
Fonte da
variao
SQ
gl
MQ
valor-P
F crtico
Estados
1,38035E+15
2,76E+14
60,16717
7,47068E-21
2,386066
Culturas
3,7946E+13
1,9E+13
4,135013
0,021335235
3,168246
Interaes
2,46859E+15
10
2,47E+14
53,80089
1,8184E-24
2,011181
Dentro
2,47772E+14
54
4,59E+12
TOTAL 4,13465E+15
71
176
como o trigo, precisa de regies frias para o seu cultivo. Sabe-se, tambm, que existem
variedades de sementes de trigo que so adaptadas para o seu cultivo em regies de condies
climticas no to favorveis. O mesmo ocorre com a produo de milho, feijo e outras
culturas.
4 Concluses
As tcnicas da anlise multivariada, utilizadas neste estudo, mostram-se pertinentes.
Pois foi possvel sintetizar, num determinado perodo, quais as regies em que determinada
cultura predominou, num perodo de oito anos, identificando os estados que melhor
representaram a produo nacional de gros, bem como o tipo de cultura existente.
No perodo de 1995 a 2002, as regies e as culturas que se destacaram na produo
nacional de gros foram: a regio sul, pela produo de milho, trigo, feijo, soja e arroz e a
regio sudeste, pela produo de caf. As outras regies no apresentaram uma produo
expressiva. Contudo, estas regies podem estar dedicadas a outras atividades econmicas,
como a bovinocultura, algodo, fruticultura, indstrias, entre outras atividades.
A anlise de varincia serviu para confirmar os resultados obtidos nas tcnicas
multivariadas, ou seja, mostrou que existe diferena significativa de produo entre as regies
do Brasil. Esses resultados so importantes, sabendo-se haver uma heterogeneidade de
produo entre os estados brasileiros, a qual se deve, em especial, s diferenas climticas,
culturais e de incentivos fiscais, entre outros fatores.
Neste ano, pretende-se realizar um novo trabalho, a partir do perodo de 2002 at
2004, para que seja possvel verificar se a produo dessas culturas sofreu alguma
modificao, tanto em relao ao aumento da produo nacional quanto em relao s regies
em que foram destaque no perodo de 1995 a 2002, se ainda so essas que possuem as mais
expressivas produes do pais, ou se, a partir de 2002, com o aumento do preo da soja e com
as mudanas sofridas no cenrio produtivo nacional, pode-se acreditar que esses resultados
tenham mudado.
Esses resultados podero vir a contribuir para a formao de polticas de incentivo
agroindstria regional e nacional, pois, identificadas s regies que possuem carncia de
produo, pode-se, por meio de pesquisas nas reas de agronomia e gesto do agronegcio,
difundir novos mtodos de cultivos e novas variedades.
5 Referncias bibliogrficas
AGROINDSTRIA brasileira. Disponvel em: <http://www.aviculturaindustrial.com.br/>.
Acesso em: 04 mar. 2005.
AGROINDSTRIA cresce 5,3% em 2004: a melhor marca da srie histrica. Disponvel em:
<http://www.ibge.gov.br/>. Acesso em: 10 mai. 2005.
BASSAB, W. O.; MIAZAKI, . S.; ANDRADE, D. F. Introduo anlise de agrupamentos:
In: SIMPSIO BRASILEIRO DE PROBABILIDADE E ESTATSTICA, 9.,1990, So
Paulo. Resumos...So Paulo, 1990.
BOUROCHE, J. M.; SAPORTA, G. Anlise de dados. Rio de Janeiro: Zahar, 1982.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 3. ed. New
Jersey: Prentice-Hall, 1992.
JACKSON, J.E. Principal components and factor analysis: Part II - additional topics related to
principal components. Journal of Quality Technology, v.13, n.1, jan. 1980.
177
LEITE,
L.
A.
S.
Embrapa
agroindstria
<http://www.cnpat.embrapa.br/>. Acesso em: 04 mar. 2005.
tropical.
Disponvel
em:
MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London: Academic, 1979.
PLA, E. L. Analisis multivariado: mtodo de componentes principales. Falcn: Coro, 1986.
SILVEIRA, J. M. Agroindstria. Disponvel em: <http://www.mre.gov.br/>. Acesso em: 10
mar. 2005.
178
ARTIGO 4
AVALIAO DA FAUNA EDFICA EM CAMPO NATIVO MEDIANTE TCNICAS
DA ANLISE MULTIVARIADA
ABSTRACT: The organisms of the soil reflect the operation of the ecosystem. In that work it was
verified the influence of the temperature and humidity on them. The multivariate analysis allowed to
observe the groups formed by the organisms and to analyze the influence of the temperature and
humidity on them.
1. INTRODUO
A natureza um sistema essencialmente dinmico, onde predomina a inter-relao entre os
seres vivos e a relao destes, com o meio em que vivem. Cada fator da natureza, animal, planta e solo
influem um sobre o outro, e a modificao de um condiciona a alterao de outro.
179
No princpio o homem estudou esses fatores isoladamente, sem qualquer relao com os demais
fatores. Somente mais tarde passou a observar a relao desses, bem como as transformaes que
sofrem e as conseqncias geradas nesse processo evolutivo.
Desta maneira, preocupou-se muito com a natureza e, dentro desta, com o solo e toda a comunidade
variada que o compem, que tanto em termos quantitativos, como qualitativos so indispensveis sua
conservao e funcionamento. Segundo Lopes Assad et al (1997) o biofuncionamento do solo e o
conjunto de suas funes edficas, interagindo com fatores ambientais, so dependentes de regulaes
biolgicas das plantas, microorganismos e fauna edfica.
O conhecimento da biologia do solo, associado s informaes oriundas de todos os ramos do
conhecimento, torna-se indispensvel ao estudo de sua morfologia, o que poder nos proporcionar a
maneira mais adequada ao manejo de nossos solos, garantindo maior equilbrio com os demais
componentes biticos e abiticos.
As modificaes do clima e do manejo do solo exercem influncia direta, e indireta, sobre a fauna
edfica do solo, podendo diminuir o nmero e a diversidade dos organismos que o compem
(VARGAS e HUNGRIA 1997).
Devido importncia em analisar a influncia da temperatura e umidade do solo sobre a sua
meso e a macrofauna, realiza-se este trabalho, que tem como objetivo verificar se a temperatura e a
umidade influenciam na quantidade e diversidade de organismos existentes no mesmo.
2. METODOLOGIA
180
Plot of Eigenvalues
5,0
30
4,5
4,0
25
3,5
3,0
Value
Linkage Distance
20
15
2,5
2,0
10
1,5
5
1,0
0,5
0
IYMENOP ACARINA COLEOP.
ARANAE
MOLUSC.
HEMIP.
COLLEN.
ANNELID.
QUILOP.
DIP.
DIPLOP. CRUSTACE
ISOP.
0,0
1
10
11
12
13
Number of Eigenvalues
181
engloba a maior parte das variveis estudadas, o grupo representado pelo crculo em vermelho, da
varivel representada pelos aneldeos e o grupo do crculo em rosa, da varivel representada pelos
hymenpteros. Observa-se, ento, que os trs grupos formados so distintos, ou seja, isto significa
dizer que existe homogeneidade dentro de cada grupo e heterogeneidade entre os grupos, isto , esto
agrupados por uma caracterstica comum: maior abundncia no solo.
A definio do nmero de componentes, a serem utilizadas, feita por meio do critrio
sugerido por Cattel (1966). Este denominado de mtodo grfico e representa, graficamente, a
porcentagem de variao explicada pela componente nas ordenadas e os autovalores em ordem
decrescente nas abscissas. Esse critrio considera as componentes anteriores ao ponto de inflexo da
curva, como pode-se observar na Figura 2. O nmero de fatores a serem utilizados na anlise seis,
pois a partir do sexto fator ocorre uma estabilizao no grfico.
As Figuras 3 e 4 representam o primeiro plano principal. A Figura 3 com a distribuio da
nuvem de variveis (organismos) e duas variveis complementares, e a Figura 4 com a distribuio da
nuvem de pontos (coletas).
1,0
6
C2 C13
MOLUSC.
ANNELID.
QUILOP.
Factor 2 : 18,10%
Factor 2: 18,10%
DIPLOP.
0,5
*H2O
ISOP.
ARANAE
CRUSTACE
COLLEN.
0,0
ACARINA
IYMENOP
*Temp
C14
C9
C15
C11
C12
C6
C10
C28
C8
C27
C7
C22
C23
C25
C21
C17
C19
C26
C4C30
C24
C5
C29
C16 C18
C3
-2
C1
COLEOP.
HEMIP.
DIP.
-0,5
-4
-6
-1,0
-1,0
-0,5
0,0
0,5
1,0
Factor 1 : 33,05%
Active
Suppl.
-8
-14
-12
-10
-8
-6
-4
-2
Factor 1: 33,05%
Active
182
relao ao fator 2, mediante ACP, que as variveis que sofreram influncia da temperatura so:
Collembola, Hemptera, Coleptera, Crustcea, Acarina, Dptera, Aranae, Diplpoda, Quilpoda,
Mollusca e Anneldeo, e as que sofreram influncia da umidade so apenas duas variveis, Isptero e
Hymenptero.
A Figura 4 mostra que as variveis que melhor explicaram o fator 1 so representadas pela coleta um
(C1), sendo elas: Collembola, Hemptera, Coleptera, Crustcea e Acarina. As variveis Diplpoda,
Quilpoda, Mollusca, Anneldeo, so representadas pelas coletas dois e treze (C2 e C13). As variveis
Dptera, Aranae, Isptero e hymenptero so representadas pelas demais coletas, neste primeiro plano
principal.
4. CONCLUSES
A anlise multivariada uma ferramenta estatstica muito til, pois suas tcnicas so
capazes de mostrar, em um grupo de variveis correlacionadas, resultados independentes. Desta forma
conseguiu-se com a aplicao da tcnica da ACP, relacionar todos os fatores selecionados pelo critrio
sugerido por Cattel (1966), em relao ao fator 1 que melhor explicou a proporo de varincia
acumulada. Pode-se concluir que as variveis complementares influenciam na quantidade e
diversidade de organismos existentes no solo. Portanto conclui-se, com este trabalho, que das duas
variveis complementares, umidade e temperatura, a temperatura teve influncia em todos os planos
principais sobre as mesmas variveis, sendo estas: Collembola, Hemptera, Coleptera, Crustcea,
Acarina, Dptera, Aranae, Diplpoda, Quilpoda, Mollusca, Anneldeo, e a umiadde influenciou
apenas sobre duas variveis, Isptero e Hymenptero. As coletas apresentaram diferentes resultados
em cada plano principal, ou seja, representaram diferentes variveis.
Pelo exposto, neste trabalho, pode-se inferir que os mtodos estatsticos aplicados na rea da
biologia do solo foram pertinentes, e os resultados obtidos podem contribuir, significativamente, para
o manejo do mesmo.
5. REFERNCIAS BIBLIOGRFICAS
CRUZ, C. D. Aplicao de algumas tcnicas multivariadas no melhoramento de plantas. 1990.
Tese (Doutorado) - ESALQ. Piracicaba, 1990.
EMBRAPA /CNPS. Sistema brasileiro de classificao de solos. Rio de Janeiro: 1999.
LOPES ASSAD; et al. Atividade biolgica em solos da regio dos Cerrados. In: CONGRESSO
BRASILEIRO DE CINCIA DO SOLO, 26, 1997, Rio de Janeiro. Resumos expandidos ... Rio de
Janeiro: EMBRAPA e UFRRJ; Campinas: SBCS. 1997. 1 CD-ROM
VALENTIN, J. L. Ecologia numrica: uma introduo anlise multivariada de dados ecolgicos.
Rio de Janeiro: Intercincia, 2000.
VARGAS, A.T.; HUNGRIA, Biologia dos solos do Cerrados. Planaltina: EMBRAPA-CPAC, 1997.
183
6 ANEXO
Neste captulo ser apresentada a reviso de lgebra que servir de auxlio
no desenvolvimento manual das tcnicas multivariadas deste trabalho.
a11
a
21
.
A=
.
.
a m1
a12
a 22
.
.
.
a m2
.
.
.
.
.
.
.
.
.
.
.
.
. a1n
. a 2 n
. .
. .
. .
. a mn mxn
[ ]
ou na forma abreviada, A = a ij
mxn
coluna.
Diz-se ento que A tem dimenso mxn e ser denotada por A R mxn , se as
entradas de a ij so reais.
A matriz A poder tambm ser expressa em termos de colunas:
184
A = [a1 , a 2 , ...., a n ]
onde a i R mx1 = R m , (i = 1, 2, ..., n).
Matriz quadrada
a11 a12
A = a21 a22
a31 a32
a13
a23
a33
Simtrica
Uma matriz quadrada de ordem n simtrica quando A = A t ( A t significa a
1 2 2
A = 2 3 0
2 0 4
Matriz triangular
185
3 1 4
A = 0 1 2
0 0 3
1 0 0
A = 2 2 0
4 0 4
Diagonal
Se A quadrada e a ij = 0 para i j, ento A diagonal, isto , todos os
5 0 0
A = 0 2 0
0 0 1
Identidade
uma matriz diagonal cujos elementos so todos iguais a um (a ii = 1) .
Denotada por: I n .
1 0 0
1 0
I 3 = 0 1 0 e I 2 =
0 1
0 0 1
Matriz oposta
[ ]
A matriz A oposta se A = a ij
mxn
186
Transposio
A transposta de qualquer matriz A
R mxn
obtida trocando-se
ordenadamente linhas por colunas ou suas colunas por linhas. Conforme Valentin
(2000) a transposta de uma matriz quadrada simtrica igual a ela mesma, e a
transposta de um vetor-linha um vetor-coluna.
[ ]
Notao: A t = a ij
nxm
2 6 7
2
A3 x 3 = 3 2 1 A3 x 3 = A3 x 3 = 6
5 4 2
7
1 7
1
ou A3 X 2 = 2 8 A3 x 2 = A2 x 3 =
7
4 6
3 5
2 4
1 2
2 4
8 6
Adio
[ ]
[ ]
mxn
(BOLDRINI, 1986).
187
A + B= C
1 4
2 7
A=
eB=
3 5
3 6
1 + 2 4 + 7
3 11
A+B=
C =
3 + 3 5 + 6
6 11
Subtrao
[ ]
Dadas as matrizes A = a ij
mxn
e B = [b ij ]m x n , chamamos de diferena
1 4 2 7 1 4 2 7 1 2 4 7 1 3
3 5 3 6 = 3 5 + 3 6 = 3 3 5 6 = 0 1
[ ]
Seja A = a ij
[ ]
k.A = ka ij
nxm
nxm
Multiplicao de matrizes
[ ]
[ ]
C = cij
mxn
mxp
[ ]
e B = b ij
pxn
a matriz
188
a11 a12
b
b b
A3 X 2 = a21 a22 e B2 x 3 = 11 12 13
b21 b22 b23
a31 a32
a11b11 + a12b21 a11b12 + a12b22 a11b13 + a12b23
C3 x 3 = a21b11 + a22b21 a21b12 + a22b22 a21b13 + a22b23
a31b11 + a32b21 a31b12 + a32b22 a31b13 + a32b23
A 2 x 3 .B3x 3 = C 2 x 3
2 2 8
1 3 3
4 3 1
2 .3 + 2 .0 + 8 .2
2 .1 + 2 .1 + 8 .0
2 0 1 = 2 .4 + 2 .2 + 8 .1
1 2 0
20 22 4
C 2 x3 =
7 3 4
A associao de duas matrizes associativa, mas no comutativa.
Matriz Inversa
Se A e B R nxn e A.B = B. A = I n , ento B a inversa de A. Denotada por
A 1 .
Conforme Valentin (2000) uma matriz s inversvel se for quadrada, mas
nem toda a matriz quadrada pode ser inversvel. Uma matriz que no admite
189
Propriedades:
i ) A 1 . A = A. A 1 = I
ii ) A 1 =
iii ) A t
1
A
[ ]
= A 1
Determinante
Por definio tem-se que, seja A uma matriz quadrada. A funo
determinante denotada por det e definimos por det A como soma de todos os
produtos elementares com sinal de A. O nmero de det A chamado determinante
de A. Uma observao importante que para cada matriz existe um nmero real
denominado determinante da matriz.
Se A no singular, ento:
det A =
ij
j =1
onde Aij a submatriz da inicial, na qual a i-sima linha e a j-sima coluna foram
retiradas.
Escreve-se determinante de A pela expresso: A = det .A = A
[a11 ] ,
chama-se de
a 11
a 21
Dada a matriz A =
a 12
, de ordem 2, por definio, tem-se que o
a 22
190
det A =
a 11
a 12
a 21
a 22
= a 11 a 22 - a 12 a 21 ,
assim:
det A = a 11 a 22 - a 12 a 21 ,
1 0
sendo A =
, ento:
2 5
det A =
1 0
2 5
= 1.5 - 2.0 = 5 - 0 = 5,
logo det A = 5
Deve-se observar que o determinante de uma matriz de ordem 2 dado
pela diferena entre o produto dos elementos da diagonal principal e o produto dos
elementos da diagonal secundria.
Propriedades:
i) Se todos os elementos de uma linha ou coluna de uma matriz A so nulos, ento
det A = 0.
ii) det A = det A t
iii) Trocando a posio de duas linhas (ou colunas) o determinante troca de sinal.
iv) O determinante de uma matriz que tem duas linhas (ou colunas) iguais ou
proporcionais zero. Em geral,
v) det (A+B) det (A) + det (B).
vi) det (A.B) = det (A) + det (B).
vii) Se multiplicar uma linha da matriz por uma constante, o determinante fica
multiplicado por esta constante
viii) Se A singular ento o det A = 0
Se A no singular ento o det A 0
a c
A matriz A =
singular se, e s se, det A = 0
b d
O determinante de uma matriz pode ser calculado de duas formas pelo
Teorema de Laplace, que serve para calcular o determinante de matrizes de
qualquer ordem ou pela Regra de Sarrus, que serve para calcular o determinante de
matrizes de ordem 3.
Para aplicar o Teorema de Laplace faz-se necessrio citar algumas
definies de clculos intermedirios:
191
a11
a) Dada a matriz A =
a 21
a12
, de ordem 2, determinar o menor complementar
a 22
MC 12 = a 21 = a 21
MC 21 = a12 = a12
MC 22 = a11 = a11
1 0 2
b) Dada a matriz A = 2 3 0 , de ordem 3 determina-se:
1 1 3
MC 11 =
MC 12 =
MC 13 =
3 0
1 3
3.3 - (1.0)= 9
2 0
1 3
2 3
1 1
- 2.3 - (-1.0) = - 6
- 2.1 - (-1.3) = 1
MC 22 , MC 23 , MC 31 ,
192
9 6 1
M = 2 5 1
0
4 3
a11
Dada A =
a 21
+ j
.MC ij .
a12
, os cofatores relativos a todos os elementos da matriz
a 22
A so:
1 + 1
. a 22 = (-1) . a 22 = + a 22
1 + 2
. a 21 = (-1) . a 21 = - a 21
A 11 = (-1)
A 12 = (-1)
A 22 = (-1)
A 21 = (-1)
2 + 2
2 + 1
. a 11 = (-1) . a 11 = + a 11
3
. a 12 = (-1) . a 12 = - a 12
1
. adj A.
det(A)
a11
a12
a13 | a11
a12
det A = a 21
a 22
a 32
a 23 | a 21
a 33 | a 31
a 22
a 32
a 31
= a11.a22 .a33 . + a12 .a23 .a31. + a21.a32 .a13 . a13 .a23 .a31. a12 .a21.a33 . a23 .a32 .a11
= = a11.(a22 .a33 . a23 .a32 .) + a12 (a21.a33 . a23 .a31.) + a13 .(a21.a32 . a22 .a31.),
Pode-se escrever:
a22
det A = a11
a32
a23
a
a
a
a
a12 21 23 a13 21 22 ,
a33
a31 a33
a31 a32
193
Ou ainda det A = a11 A11 a12 A12 + a13 A13 , onde Aij a submatriz obtida
retirando-se a i-sima linha e a j-sima coluna.
Se A ij = (
i+ j
1)
A ij ,obtem-se a expresso:
det A = a 11 11 + a 12 12 + a 13 13 .
Para matrizes de ordem n, tem-se:
n
[ ], no qual ij = (1) i+ j A ij .
A = A ij
1 0 2
D 1 = 0 3 2
1 5 5
Aplicando Laplace na coluna 1, se obtm o resultado:
D 1 = 1(-1)
1 + 1
3 2
5 5
+ 0(1) 2 +
0 2
5
+ 1(1) 3
+ 1
0 2
3
3 1|
4 1
3 2
2| 4 1
1 | 3 2
2) Multiplicam-se :
194
Sendo A = 2
3
1
4 1 |
4
5
2
1
2 , determine a matriz inversa de A, se existir.
3
det A = 2 5 2 | 2 5
3 2 3 | 3 2
det A = 15 + 24 4 15 4 + 24
det A = 63 23
det A = 40
1
A = 2
3
MC11 =
MC13 =
5 2
2 3
4
5
2
= 15 4 = 11
2 5
3
MC22 =
1 1
MC31 =
4 1
3 3
5 2
1
2
3
MC12 =
2 2
3
MC21 =
4 1
=33=0
MC23 =
1 4
=85=3
MC32 =
= 4 15 = 19
2 3
3 2
1
= 6 6 = 12
= 12 2 = 10
= 2 12 = 10
1
2 2
=2+2=4
195
MC33 =
2 5
= 5 + 8 = 13
11 12 19
M = 10 0
10
3
4
13
11 12 19
M = 10 0
10
3
4
13
A11 = (1)1 + 1.11 = (1) 2 . 11 = 11
A22 = (1) 2 + 2 .0 = 0
11 12 19
C = 10 0
10
3
4 13
Matriz adjunta
11 10 3
= 12
0
4
19 10 13
Matriz inversa
A
A 1
11 10 3
1
=
4
12
0
40
19 10 13
0,275 0,25 0,075
= 0,3
0
0,1
0,475 0,25 0,325
196
A 1 . A = I
1 0 0
I = 0 1 0
0 0 1
6.2 Sistemas lineares
toda a equao da forma: a1 x1 + a2 x2 + a3 x3 + ..... + an xn = b, onde
Sistema linear
M
M
M
M
M
am1 x1 + am 2 x2 + am3 x3 +.... + amn xn = bm
197
a11 a12
a
21 a22
.
.
.
.
am1 am 2
.
.
.
.
.
. a1n x1 b1
. a2 n x2. b2
. . . . = .
. . . .
. amm xn bm
ou seja, X = A 1 .B .
Matriz Incompleta
3x + 3 y z = 4
2 x + 2 y + z = 3 , a matriz incompleta :
x + 5y + z = 0
3 3 1
A = 2 2 1
1 5 1
Matriz Completa
198
3x + 3 y z = 4
2 x + 2 y + z = 3 ,
x + 5y + z = 0
a matriz completa :
3 3 1 4
B = 2 2 1 3
1 5 1 0
Classificao quanto ao nmero de solues de um sistema linear, conforme
paiva (1996).
x+ y =8
, este sistema tem uma soluo nica, que o par ordenado (3, 5).
2 x y = 1
Dessa forma o sistema possvel, pois tem soluo, e determinado possui
uma soluo nica.
O SPI aquele sistema que admite mais vrias solues.
x+ y =8
, este sistema possui infinitas solues, algumas delas so os pares
2 x + 2 y = 16
ordenados: (0, 8), (1, 7), (2, 6), .......
Dessa forma o sistema possvel, pois tem soluo, e indeterminado possui
infinitas solues.
O SI todo sistema linear que no admite nenhuma soluo.
199
x + y = 10
, neste sistema nenhum par ordenado satisfaz simultaneamente as
y
=
10
equaes.
Dessa forma o sistema impossvel, pois no tem soluo.
determinado (uma nica soluo)
possvel
indeterminado (vrias solues)
Sistema linear
coeficientes
das
incgnitas
respectivamente
proporcionais
termos
Sistema normal
Um sistema normal quando tem o mesmo nmero de equaes m e de
incgnitas n e o determinante da matriz incompleta associada ao sistema diferente
de zero.
Ou seja, se m = n e det A 0 o sistema normal.
x + y = 5
x y =1
Temos: m = 2, n = 2 m = n (I)
200
det A = 1
Regra de cramer
Dx
onde
Temos: m = n = 2
D=
3 2
Dx =
7 2
independentes, tem-se:
Dy =
= 7 - 9 = - 2.
20
5
Assim: x = D x =
=
8
2
D
2 1
y = Dy =
=
8 4
D
5 1
Logo, ( x, y ) = , a soluo do sistema dado.
2 4
201
x + 2y z = 1
1 2 1 x 1
2 1 4 y = 5
3 3 1 z 2
1 2 1
A = 2 1 4
3 3 1
Determinante de A
2 1 |
det A = 2 1
3 3
4
1
| 2 1
| 3 3
det A = 1 + 24 + 6 + 3 12 + 4 = 0
det A = 26
MC11 =
MC13 =
MC22 =
MC31 =
MC33 =
1 4
= 1 12 = 11
3 1
2 1
3
1 1
3
2 1
1
1
4
2
2 1
MC12 =
= 6 3 = 9
MC21 =
=1+ 3 = 4
MC23 =
=8+1= 9
MC32 =
=1+ 4 = 5
11 14 9
M = 5
4
3
9
2
5
2 4
3
2 1
3
= 2 12 = 14
1 2
3 3
=2+3=5
= 3 6 = 3
=42=2
202
A13 = ( 1)1 + 3 .( 9) = ( 1) 4 . ( 9) = 9
A21 = ( 1) 2 + 1.5 = ( 1) 3 . 5 = 5
A22 = ( 1) 2 + 2 .4 = ( 1) 4 .4 = 4
A31 = ( 1) 3 + 1.9 = ( 1) 2 . 9 = 9
A32 = ( 1) 3 + 2 . 2 = ( 1)5 . 2 = 2
A33 = ( 1) 3 + 3 . 5 = ( 1) 6 . 5 = 5
11 14 9
C = 5 4
3
9 2 5
11 5 9
C = 14
4 2
9 3
5
t
11 5 9
1
A =
14
4 2
26
9 3
5
1
X = A1.B
1 2 1
A = 2 1 4
3 3 1
1
2 1 |
A = 2 1
3 3
4
1
| 2 1
| 3 3
det D = 1 + 24 + 6 + 3 12 + 4 = 0
det D = 26.
Para calcular D x , substitui-se a primeira coluna de A pelo vetor B:
203
1 2 1 | 1 2
Dx = 5 1
2 3
4
1
| 5 1
| 2 3
D x = 1 + 16 15 + 2 12 10
D x = -18
Para calcular D y , substitui-se a segunda coluna de A pelo vetor B:
1 1 |
Dy = 2 5
3 2
4
1
| 2 5
| 3 2
D y = 5 + 12 + 4 + 15 8 + 2
D y = 30.
2 1 |
Dz = 2 1 5 | 2 1
3 3 2 | 3 3
D z = 2 + 30 6 3 15 + 8
D z = 16.
As solues encontradas para o sistema so:
x =
y=
z=
Dx
18
=
= - 0,69
D
26
Dy
D
30
1,15
26
Dz
16
=
= 0,61.
D
26
204
A1
A2
Vg 1
a11
a12
Vg 2
a 21
a 22
Vg 3
a 31
a 32
205
j {1, p} .
Conforme Valentin esses dados podem ser representados de duas maneiras
diferentes:
a) no espao das coletas (Figura 84a), plotando os pontos representativos de cada
espcie a partir dos valores de a ij num sistema de dois eixos-coletas ortogonais A1
e A2 ;
b) no espao espcie (Figura 84b ), plotando os pontos representativos de cada
coleta a partir dos valores de a ij num sistema de trs eixos-espcie ortogonais
Vg 1 , Vg 2 e Vg 3 .
Vg 2
A2
a32
a 22
a 22
Vg 2
A2
Vg 3
a12
Vg 1
a21
a31
a11
a
a12
a32
A1
(a)
a31
Vg 3
A1
a11
Vg 1
(b)
Figura 84: Representao vetorial das espcies nos espaos das estaes (a) e das estaes no
espao das espcies (b)
206
por exemplo 2, resultar em outro vetor A2 2 a21 , 2 a22 , cujos elementos foram
multiplicados pelo escalar 2 na Figura 85.
A2
A2,
2a 22
a 22
a 21
2a 21
A1
soma
dos
elementos
que
A2
(a12 + a 22 )
a 22
Vg 3
Vg 2
a12
Vg 1
a21
a11
A1
(a12 + a 22 )
correspondem
aos
dois
vetores:
207
O produto escalar entre dois vetores, neste exemplo das espcies vegetais
representado pelos vetores Vg 1 x11 , x12 e
vetores o nmero, que obtido atravs da soma dos produtos dos respectivos
elementos. J o produto escalar de um vetor por ele mesmo corresponde ao seu
comprimento, ou seja, a sua norma.
Em anlises que englobam diversas variveis e a representao vetorial
simultnea exige que todos os vetores representativos dessas variveis tenham
2
2
norma igual a 1, que representada por Ag 2 = a 21
+ a 22
, conforme o Teorema de
Pitgoras. Existe um caso particular, no qual a norma do vetor igual a 1, sendo que
nestas circunstncias os elementos respeitam a igualdade cos 2 + sen 2 = 1 , como
pode-se observar na Figura 87.
A2
r
u
a2
1
a1
A1
208
(a 21 m 2 , a 22 m 2 ) .
A norma de cada vetor dada por:
A1 =
(a11 m1 ) 2 + (a12 m1 ) 2
Se A1 e A2 so dois vetores no nulos, fazendo um ngulo entre eles tem-
se a relao:
cos =
A1 . A2
A1 . A2
Propriedade:
x A2
r
A
D AB
xB2
x A1
x B1
X1
D AB entre dois vetores A e B.
209
(x
D A, B =
A, j
x B, j )
j =1
a11
a
12
.
A=
.
.
a m1
a12
a 22
.
.
.
a m2
.
.
.
.
.
.
.
.
.
.
.
.
. a1m
. a 2 m
.
.
.
.
.
.
. a mm
0
0
D =
.
.
. .
. .
. .
. .
. .
. .
0
.
.
.
Ax j = j X j ou A j I X j = 0
x j so os autovetores da matriz A, sendo que a cada autovalor j existe um
autovetor x j correspondente sendo que j (1, m ).
e um vetor X no nulo
Seja A uma matriz quadrada, se existe um escalar
tal que:
Ax = x,
210
Propriedades:
Se a matriz no singular, ento todos os seus autovalores so diferentes de
zero.
4 5
A=
2 3
matriz
de
associao
entre
duas
variveis.
2
2
x
x ) 5x = 0
) x 5x = 0
4 x1 5 x 2 =
( 4 x
( 4
1
1
2
1
2
1
2 x1 3 x 2 = x 2
2 x1 (3 x 2 x 2 ) = 0
2 x1 (3 + ) x 2 = 0
)
(3 +
=0
) (3 +
) + 10 = 0
(4 -
+ 3
+
2 + 10 = 0
-12 4
211
2 -
- 2 = 0 esta equao denominada de polinmio caracterstico.
= b
(b) 2 4(a)(c)
2(a)
=1
( 1) 2 4(1)( 2)
( 2)(1)
=1 9
=13
2
2
= -1
1
= 2.
+
+ .... +
= trao da matriz A. Ou seja,
1
2
p
-1 + 2 = 1 = trao da matriz A.
).(
) ....(
) = determinante da matriz A.
(
1
2
p
(-1).(2) = -2
Deve-se observar tambm que a adio de duas razes caractersticas 1
que nada mais que o segundo termo da equao.
Com a diagonalizao da matriz A obteve-se a matriz diagonal
1 0
D=
, das razes caractersticas.
0 2
= -1 dado pela equao
O clculo dos autovetores associados a
1
S 1 I X i = 0 ou mediante sistema,
r
.
substituindo o autovalor. Existe um vetor X para cada valor de
r
Os autovetores X so calculados pela equao matricial:
4 5
1 0 x1 0
2 3 (1) 0 1 x = 0
2
5
4 + 1
2
3 + 1
x1 0
x = 0
2
212
5 x1 5 x 2 = 0
2 x1 2 x 2 = 0
ou ainda:
) x 5x = 0
( 4
1
2
, substituindo o autovalor pelo valor encontrado no mesmo
(
3
+
)
=
0
x
x
2
1
tem-se:
(4 (1)) x1 5 x 2 = 0 5 x1 5 x 2 = 0
2 x1 (3 + (1)) x 2 = 0
2 x1 2 x 2 = 0
I = 0
Este sistema de equaes indeterminado, em virtude de S
5 5
2 2
=0
S 2 I X 2 = 0
4 5
1 0 x1 0
2 3 (2) 0 1 x = 0
2
5 x1 0
4 2
=
2
3 2 x 2 0
2 x1 5 x 2 = 0
2 x1 5 x 2 = 0
ou ainda:
213
) x 5x = 0
( 4
1
2
, substituindo o autovalor pelo valor encontrado no mesmo
2 x1 (3 + ) x 2 = 0
tem-se:
(4 2) x1 5 x 2 = 0 2 x1 5 x 2 = 0
2 x1 (3 + 2) x 2 = 0
2 x1 5 x 2 = 0
De forma anloga ao primeiro autovetor, atribui-se um valor para ( x 2 = 1 ),
logo:
2 x1 - 5(1) = 0
2 x1 - 5 = 0
2 x1 = 5
214
7 BIBLIOGRAFIA
BOLDRINI, C. FIGUEIREDO, W. lgebra Linear. So Paulo: Harba, 1986.
BUSSAB, W. O.; MIAZAKI, . S.; ANDRADE, D. F. Introduo anlise de
agrupamentos: In: SIMPSIO BRASILEIRO DE PROBABILIDADE E ESTATSTICA,
9.,1990, So Paulo. Resumos...So Paulo, 1990.
CRUZ, C. D. Aplicao de algumas tcnicas multivariadas no melhoramento de
plantas. 1990. Tese (Doutorado) ESALQ, Piracicaba, 1990.
CATTEL, R. B. The scree test for the number of factors. In: ---. Multivariate
behavior research. v.1, p. 245-276, 1966.
FERREIRA, D. F. Anlise multivariada. Lavras, 1996.
HAIR, J. F.;ANDERSON,et al. Anlise multivariada de dados. 5. ed. Porto Alegre,
2005.
JACKSON, J.E. Principal componets and factor analysis: Part I - principal
componets. Journal of Quality Technology. v.12, n.4, p.201-213, Oct. 19..
JOHONSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 3.
ed. New Jersy: Prentice-Hall, 1992.
LOPES, L. F. D. Anlise de componentes principais confiabilidade de
sistemas complexos. 2001. Tese (Doutorado Engenharia de Produo)
Universidade Federal Santa Catarina, 2001.
MAGNUSSON, W. E.; MOURO, G. Estatstica sem matemtica: a ligao entre
as questes e a anlise. Curitiba: 2003.
MALHOTRA, N. K. Pesquisa de marketing: uma orientao aplicada. Porto Alegre:
Bookman, 2001.
MANLY, B. F. J. Multivariate statistical methods: a primer. London: Chapman and
Hall, 1986.
MARDIA, K.V.; KENT, J. T. i BIBBY, J. M. Multivariate analysis. London: Academic,
1979.
NETO, M. M. J. Estatstica multivariada. Revista de Filosofia e Ensino. 9 maio
2004. Disponvel em: http://www.criticanarede.com/cien_estatistica.html. Acesso em:
9 maio 2004.
PLA, L. E. Analysis multivariado: Mtodo de componentes principales.
Washington: Secretaria General de la Organizacin de Los Estados Americanos, ,
D. C. 1986.
PAIVA, M. Matemtica 2. So Paulo: Moderna, 1995.
215