Escolar Documentos
Profissional Documentos
Cultura Documentos
TEORIA PRTICA
por
Lorena Vicini
Orientador: Adriano Mendona Souza
CDU 519.237
2005
Todos os direitos autorais reservados a Lorena Vicini e Adriano Mendona Souza. A
reproduo de partes ou do todo deste trabalho s poder ser com autorizao por
escrito do autor.
Fone (0xx) 54 9961-8410 ou (0xx) 55 99743167;
End. Eletr: lorenavicini@pop.com.br, amsouza@smail.ufsm.br
SOBRE OS AUTORES
A estatstica mostra-se, cada vez mais, como uma poderosa ferramenta para
a anlise e avaliao de dados, em vrias reas do conhecimento, sendo muitas
vezes um tanto difcil para os profissionais trabalharem conceitos e elaborarem
exemplos prticos, devido limitao de materiais didticos que expressem, com
simplicidade e clareza, mtodos e procedimentos da aplicao de certas tcnicas
multivariadas, que s passaram a ser utilizadas, em larga escala, a partir do advento
dos computadores.
Embora a estatstica multivariada tenha surgido por volta de 1901, apenas
nos dias de hoje consegue-se desenvolver e aplicar essa tcnica, pois sem o auxilio
de programas computacionais no seria possvel realizar to rpido, e com tanta
clareza, os grficos que possibilitam estudar o inter-relacionamento das variveis.
Pode-se verificar, no decorrer da pesquisa, que as tcnicas de anlise de
agrupamentos, e anlise de componentes principais, so tcnicas matemticas, com
grande fundamentao na lgebra e na geometria, o que muitas vezes faz com que
os estatsticos no considerem como tcnica estatstica. Por outro lado, figuram,
quase sempre, em congressos nacionais e revistas especializadas, que tratam de
assuntos sobre estatstica.
A anlise fatorial, que muitas vezes confundida com anlise de
componentes principais, pelo fato de um dos modos de extrao de fatores ser a de
componentes principais, considerada uma tcnica estatstica, pois ela pressupe a
existncia de um modelo, permite que se faa inferncias e cumpre com algumas
pressuposies bsicas sobre as variveis em anlise, como a multinormalidade dos
dados.
Nos dias atuais, o uso dessas tcnicas est bastante consolidado, mas
deve-se ter o cuidado de que no basta se observar um conjunto de variveis e
aplicar tcnicas multivariadas, simplesmente, com o intuito de apresentar a tcnica e
valorizar a pesquisa que se est realizando. H a necessidade de que exista uma
estrutura de correlao entre as variveis, pois, se as mesmas no estiverem ligadas
entre si, tem-se que utilizar uma anlise univariada, uma vez que esta, se bem
aplicada, capaz de fornecer um nvel muito bom de informao.
A estatstica univariada, em nenhum momento deve ser dispensada, quando
se realiza um trabalho estatstico, pois por meio da anlise exploratria de dados
que ser possvel conhecer as variveis em estudo. Como se sabe, a anlise
multivariada uma tcnica exploratria e, devido a isso, a anlise univariada ser
til, tambm, para realizar um estudo confirmatrio.
Com o material didtico, que est sendo apresentado, fez-se uma ampla
reviso de literatura, levando-se em considerao textos clssicos e atuais, pois
procura-se revelar, ao mximo, essa tcnica, que, muitas vezes, obscura para os
alunos, pesquisadores e profissionais que a utilizam. O uso do software foi
indispensvel, pois sem ele no seria possvel a realizao dos estudos de caso.
Embora trabalhando-se com programas diferentes, existe uma similaridade entre
eles. Isto , ao se saber bem interpretar os resultados de um, no se ter problemas
ao se interpretar resultados de outro.
Devido crescente procura sobre a anlise multivariada e a busca de
material didtico que esteja disponvel para pesquisas nesta rea, desenvolve-se
este material, que traz, passo a passo o desenvolvimento das tcnicas de anlise de
agrupamentos, anlise fatorial e anlise de componentes principais, pois sabe-se
que muitos materiais existem e mostram como aplicar as tcnicas, mas poucos
dizem como estas so desenvolvidas.
A estatstica, por ser multidisciplinar, est inserida em vrias reas do
conhecimento, por isso faz-se necessrio a sua aplicao, o seu entendimento e sua
interpretao como ferramenta de pesquisa.
So apresentados exemplos prticos elaborados de forma clara, para que
todos que fizerem uso deste material possam compreender em que condies e
como podero ser aplicadas as tcnicas aqui apresentadas, bem como interpretar os
resultados obtidos nas anlises.
Este material poder ser utilizado por todos que necessitem analisar base de
dados relativamente complexas, ou seja, espaos de dimenso iguais ou superiores
ao R3, nos quais deve existir correlaes entre as variveis. Mostrou-se, tambm,
como interpretar essas variveis, para que todos possam utilizar com segurana os
mtodos da estatstica multivariada.
Em relao ao uso de programas utilizados, para aplicao da tcnica,
sugere-se que outros programas sejam utilizados, assim como os softwares, pois,
desta forma, estimula-se o pesquisador a criar as suas prprias rotinas
computacionais.
Ressalta-se que a utilizao de bibliografia adicional para a compreenso da
tcnica assim como a sua aplicao necessria, pois o entendimento do
pesquisador a cada leitura ser aprimorado e o mesmo poder tirar concluses mais
acertadas da pesquisa desenvolvida.
Este material didtico contempla a teoria e a prtica das tcnicas de
agrupamentos, anlise fatorial e de componentes principais, voltado s
necessidades de atender pesquisadores dos cursos de graduao, ps-graduao e
pesquisadores, que necessitem dessa ferramenta estatstica em suas pesquisas
para anlises em seu trabalho.
Alm da apresentao das trs tcnicas multivariadas apresentadas neste
material didtico, tambm apresenta-se quatro pesquisas em que foi aplicado os
mtodos multivariados, estas pesquisas j foram apresentadas em eventos
cientficos nacionais ou internacionais, portanto, j tiveram o crivo de avaliao dos
referidos eventos em que foram publicados.
No anexo apresenta-se uma reviso de lgebra que dever ser consultada
somente se o leitor achar necessrio, pois consideramos que se o mesmo no tiver
conhecimento sobre lgebra dificultar o bom entendimento das tcnicas.
Salientamos que este material de responsabilidade dos autores e que
quaisquer dvidas ou sugestes devem ser encaminhada para os mesmos, para que
com isso o material seja aprimorado.
Os autores
NDICE
Captulo 1 Introduo 9
1 INTRODUO
Na vida, sempre que for necessrio tomar uma deciso, deve-se levar em
conta um grande nmero de fatores. Obviamente, nem todos esses pesam da
mesma maneira na hora de uma escolha. s vezes, por se tomar uma deciso
usando a intuio, no se identifica, de maneira sistemtica, esses fatores, ou essas
variveis, ou seja, no so identificadas quais as variveis que afetaram a tomada
de deciso.
Quando se analisa o mundo que nos cerca, identifica-se que todos os
acontecimentos, sejam eles culturais ou naturais, envolvem um grande nmero de
variveis. As diversas cincias tm a pretenso de conhecer a realidade, e de
interpretar os acontecimentos e os fenmenos, baseadas no conhecimento das
variveis intervenientes, consideradas importantes nesses eventos.
Estabelecer relaes, encontrar, ou propor, leis explicativas, papel prprio
da cincia. Para isso, necessrio controlar, manipular e medir as variveis que so
consideradas relevantes ao entendimento do fenmeno analisado. Muitas so as
dificuldades em traduzir as informaes obtidas em conhecimento, principalmente
quando se trata da avaliao estatstica das informaes.
Os mtodos estatsticos, para analisar variveis, esto dispostos em dois
grupos: um que trata da estatstica, que olha as variveis de maneira isolada a
estatstica univariada, e outro que olha as variveis de forma conjunta a estatstica
multivariada.
At o advento dos computadores, a nica forma de se analisar as variveis
era de forma isolada, e a partir dessa anlise fazer inferncias sobre a realidade.
Sabe-se que essa simplificao tem vantagens e desvantagens. Quando um
fenmeno depende de muitas variveis, geralmente esse tipo de anlise falha, pois
no basta conhecer informaes estatsticas isoladas, mas necessrio, tambm,
conhecer a totalidade dessas informaes fornecidas pelo conjunto das variveis e
suas relaes. Quando as relaes existentes entre as variveis no so
10
2 APRESENTANDO OS MTODOS
informao, ocasionando uma pequena perda da mesma, pelo fato de ser uma
sntese. Embora acontea essa perda de informao, esse grfico de grande
utilidade para a classificao, comparao e discusso de agrupamentos.
H duas formas de se representar um dendograma: horizontal e
verticalmente.
No dendograma horizontal, as linhas verticais, ou o eixo y, representam os
grupos unidos por ordem decrescente de semelhana, e a posio da reta, na
escala ou o eixo x, indica as distncias entre os grupos que foram formados. O
dendograma lido de cima para baixo, quando for feito na forma horizontal.
Var1
Var5
Var2
Var3
Var8
Var6
Var7
Var4
Var9
0 10 20 30 40 50 60 70
Distncia entre os grupos
que formado pelas variveis Var 1, Var 5, Var 2, Var 3, Var 8, Var 6, Var 7e Var 4,
j o segundo grupo formado apenas pela Var 9.
No dendograma vertical, a leitura feita da direita para esquerda, no qual as
linhas verticais, ou o eixo y, indicam as distncias entre os grupos foram formados, e
a posio da reta na escala, ou o eixo x, representa os grupos unidos por ordem
decrescente de semelhana, conforme Figura 02.
A interpretao desta Figura 02 anloga Figura 01, apenas muda no eixo
em que as variveis esto representadas.
60
50
Distncia entre grupos
40
30
20
10
0
Var9 Var4 Var7 Var6 Var8 Var3 Var2 Var5 Var1
Formulao do problema
X ij Xj (2.1)
Z ij =
Sj
uma unidade amostral (indivduos, tratamentos, espcies), e cada vetor coluna, uma
varivel (REGAZZI, 2001), como apresenta-se na Tabela 01.
A distncia entre dois pontos do plano pode ser definida como uma funo d,
que, a cada par de pontos P1 e P2, associa um nmero real positivo, d ( P1 , P2 ) , com
as seguintes propriedades:
i) se 0 d ( P1 , P2 ) e d ( P2 , P1 ) = 0, se e somente se, P1 = P2
ii) d ( P1 , P2 ) = d ( P2 , P1 ) (Simetria)
iii) d ( P1 , P2 ) d ( P1 , P3 ) + d ( P3 , P2 ) , onde P3 um ponto qualquer do plano
(Desigualdade Triangular).
Essas condies somente traduzem, em linguagem matemtica, as
propriedades que, intuitivamente, espera-se de uma funo que sirva para medir
distncias, isto , a distncia entre dois pontos deve ser sempre positiva, e s se
deve anular quando os pontos coincidirem.
21
Distncia Euclidiana
1 (2.2)
p 2
d ii , = ( X ij X i, j ) 2
j =1
Figura
Figura 04 4 - Distncia
- Distncia mdia.
mdia
p ( X ij X i , j , ) 2 (2.3)
d =
j =1 X ij
Distncia de Mahalanobis D2
r r ,
(1
) (
r r
D = X i X i, S X i X i,
2
ii ,
) (2.4)
em que :
r
[
X i = X i1 , X i 2 , ..... , X ip
,
]
r
[
X i , = X i , 1 , X i , 2 , ..... , X i , p ]
,
r r
X i e X i , , so os vetores p-dimensionais de mdias i e i , , respectivamente, com
i i , e i , i , = 1, 2, ...., n.
onde S a matriz de disperso amostral comum a todas as unidades que, no caso
de delineamentos experimentais, trata-se da matriz de varincias e covarincias
residuais.
Embora Dii2, seja o quadrado da distncia de Mahalanobis, ser chamado de
distncia de Mahalanobis.
Admitindo-se distribuio multinormal p-dimensional, e homogeneidade na
matriz de varincia-covarincia nas unidades amostrais, pode-se chamar distncia
generalizada de Mahalanobis.
Coeficiente de Pearson
1 (2.5)
X
j
ij X i, j ( X ij )( X i , j )
p j j
rii , = .
1
2
1
2
X ij2 X ij X i2, j X i , j
j p j
j p j
anlise que encontrava estas componentes e que maximizava a varincia dos dados
originais foi denominada por Hotelling de Principal Component Analysis
(HOTELLING, 1933).
Atualmente, um dos principais usos da ACP ocorre quando as variveis so
originrias de processos em que diversas caractersticas devem ser observadas ao
mesmo tempo. Esta tcnica vem sendo estudada por autores como MORRISON
(1976), SEBER (1984), REINSEL (1993), JACKSON (1980, 1981) e JOHNSON &
WICHERN (1992, 1998).
A idia central da anlise baseia-se na reduo do conjunto de dados a ser
analisado, principalmente quando os dados so constitudos de um grande nmero
de variveis inter-relacionadas. Conforme Regazzi (2001, p.1), procura-se
redistribuir a variao nas variveis (eixos originais) de forma a obter o conjunto
ortogonal de eixos no correlacionados. Essa reduo feita transformando-se o
conjunto de variveis originais em um novo conjunto de variveis que mantm, ao
mximo, a variabilidade do conjunto. Isto , com a menor perda possvel de
informao. Alm disso, esta tcnica nos permite o agrupamento de indivduos
similares mediante exames visuais, em disperses grficas no espao bi ou
tridimensional, de fcil interpretao geomtrica. A reduo de dimensionalidade
chamada de transformao de karhunnen-Love, ou Anlise de Componentes
Principal, no qual os autovalores so chamados de principal.
Na prtica, o algoritmo baseia-se na matriz de varincia-covarincia, ou na
matriz de correlao, de onde so extrados os autovalores e os autovetores.
A anlise de componentes principais tem a finalidade de substituir um
conjunto de variveis correlacionadas por um conjunto de novas variveis no-
correlacionadas, sendo essas combinaes lineares das variveis iniciais, e
colocadas em ordem decrescente por suas varincias, VAR CP1 > VAR CP2 > .... >
VAR CPp (VERDINELLI, 1980).
As novas variveis geradas denominam-se CP, e possuem independncia
estatstica e so no correlacionadas. Isso significa que, se as variveis originais
no esto correlacionadas, as ACP no oferece vantagem alguma. Variveis
dependentes quer dizer que o conhecimento de uma varivel importa para o
conhecimento da outra (SOUZA, 2000).
Para a determinao das componentes principais, necessrio calcular a
matriz de varincia-covarincia (), ou a matriz de correlao (R), encontrar os
30
X1
Y1
Encontrar Encontrar
X2
M atriz Seleo Y2
X3 R x das Y3
: ou N ovas :
: auto auto V ariveis :
valores vetores
Xp
Yp
P - com ponentes
P - variveis P rincipais
A nlise de Com ponentes Principais
Figura 06 - Esquema da aplicao da anlise de componentes principais.
Fonte: SOUZA, Adriano Mendona (2000, p.25).
CP2 X2
CP1
' X =K
-1 2
X
(elipside)
X1
0, e fornecero o i-simo componente principal dado por:
...
1 2 p
r r r r
Yi = xi X = x1i X 1 + x 2i X 2 + ... + x pi X p , onde i = 1, 2, ... , p.
Com as escolhas de que:
Var (Yi ) = xi, xi =
i i = 1, 2, ...., p
Os fatores podem ser denominados como um constructo, que pode ser uma
varivel no observada, escalas, itens, ou uma medida de qualquer espcie. Na
anlise, fatores explicam a varincia das variveis observadas, tal como se revelam
pelas correlaes entre as variveis que esto sendo analisadas.
Um dos mtodos mais conhecidos, para a extrao dos fatores, feito por
meio da anlise de componentes principais, que baseado no pressuposto que se
r
pode definir X vetores estatisticamente no correlacionados, a partir de
combinaes lineares dos p indicadores iniciais.
A ACP permite transformar um conjunto de variveis iniciais, correlacionadas
entre si, num outro conjunto de variveis no correlacionadas (ortogonais), que so
as componentes principais, que resultam das combinaes lineares do conjunto
inicial.
Tanto a anlise de componentes principais, quanto a anlise fatorial, so
tcnicas da anlise multivariada, que so aplicadas a um conjunto de variveis, para
descobrir quais dessas so mais relevantes, na composio de cada fator, sendo
estes independentes um dos outros. Os fatores, que so gerados, so utilizados de
maneira representativa do processo em estudo e utilizados para anlises futuras.
O objetivo da ACP no explicar as correlaes existentes entre as variveis,
mas encontrar funes matemticas, entre as variveis iniciais, que expliquem o
mximo possvel da variao existente nos dados e permita descrever e reduzir
essas variveis. J a AF explica a estrutura das covarincias, entre as variveis,
utilizando um modelo estatstico casual e pressupondo a existncia de p variveis
no-observadas e subjacentes aos dados. Os fatores expressam o que existe de
comum nas variveis originais (REIS, 1997).
A AF uma tcnica que aplicada para identificar fatores num determinado
conjunto de medidas realizadas, sendo utilizada, tambm, como uma ferramenta na
tentativa de reduzir um grande conjunto de variveis para um conjunto mais
significativo, representado pelos fatores. Esse mtodo determina quais variveis
pertencem a quais fatores, e o quanto cada varivel explica cada fator.
Essas duas tcnicas, ACP e AF, so sensveis a correlaes pobres entre
variveis, pois, neste caso, as variveis no apresentaro uma estrutura de ligao
entre elas. Logo, a correlao ser fraca e prejudicar as anlises, inviabilizando o
uso da tcnica, que tem como objetivo principal o estudo de conjuntos de variveis
correlacionadas.
35
intervalo, ento as variveis podem ser utilizadas para realizar a AF. Para encontrar
o valor do KMO, utiliza-se a expresso:
r
i j
2
ij
(2.6)
KMO = ,
r
i j
2
ij + a
i j
2
ij
estar prximos de zero, pelo fato de os fatores serem ortogonais entre si.
e tero, por isso, traos comuns com ACP. O que diferencia a ACP que ela trata,
exclusivamente, de variveis numricas, que desempenham, todas, o mesmo papel,
enquanto a anlise de correspondncia trata de variveis qualitativas, nas anlises
cannicas e discriminante as variveis so repartidas em grupos bem distintos
(BOUROCHE & SAPORTA, 1982).
A AF possui, como princpio, cada varivel pode ser decomposta em duas
partes: uma parte comum e uma parte nica. A primeira a parte da sua variao
partilhada com outras variveis, enquanto a segunda especfica da sua prpria
variao. Dessa forma, uma diferena entre os dois mtodos parte do montante de
varincia analisada, na qual a ACP considera a variao total presente no conjunto
das variveis originais. Na AF, s retida a variao comum, partilhada por todas as
variveis (REIS, 1997).
A base fundamental para a anlise de fator comum ACP e AF que as
variveis escolhidas podem ser transformadas em combinaes lineares de um
conjunto de componentes (fatores) hipotticos, ou despercebidos. Os fatores podem
ser associados com uma varivel individual (fatores nicos), ou, ainda, associados
com duas ou mais das variveis originais (fatores comuns). As cargas so
responsveis por relacionar a associao especfica entre os fatores e as variveis
originais. Logo, pode-se concluir que o primeiro passo encontrar as cargas e a
soluo para os fatores, que aproximaro a relao entre as variveis originais e
fatores encontrados, sendo que as cargas so derivadas dos autovalores, que esto
associados s variveis individuais.
Para ter-se uma melhor visualizao das variveis, que melhor representem
cada fator, realizada uma rotao nos eixos, pois a AF busca colocar os fatores
em uma posio mais simples, com respeito s variveis originais, que ajudam na
interpretao de fatores. Essa rotao coloca os fatores em posies em que sero
associadas s s variveis relacionadas distintamente a um fator. Existem vrias
rotaes que podem ser realizadas para a matriz fatorial, varimax, quartimax e
equimax. So todas as rotaes ortogonais, enquanto as rotaes oblquas so no-
ortogonais. A rotao varimax rotation busca minimizar o nmero de variveis com
altas cargas num fator, ou seja, maximiza a varincia da carga e , tambm, o mais
utilizado. Conforme Pereira (2001), a rotao da matriz no afeta a inrcia
(comunalidades) das variveis nem a percentagem de variaes explicadas pelos
fatores.
38
modelo construdo pela AF, ou seja, o quanto cada varivel participa na formao
da outra. Nas communality, os valores mais altos so os mais importantes para
anlise.
factor matrix a matriz de correlao entre as variveis originais e os fatores
encontrados.
Para que se possa nomear os fatores, deve-se olhar a pontuao dos
mesmos, individualmente, e ver quais variveis possuem as pontuaes mais altas.
Deve-se olhar, tambm, a pontuao do fator, para ver se as interpretaes iniciais
so confirmadas pela pontuao do fator.
A ACP adota a premissa de que a relao entre variveis e fatores linear.
Dessa forma, pode-se tentar interpretar um eixo, seja graficamente, por regresso
linear, entre as coordenadas das amostras e os autovetores de cada varivel, ou
seja, pelo clculo de um coeficiente de correlao no-paramtrico (Spearman, por
exemplo).
Para que se possa resolver a equao caracterstica, em AF, necessrio
fazer a inverso de matriz, o que no possvel com uma matriz singular.
A multicolinearidade e singularidade so assuntos derivados de uma matriz
de correlao, com alto grau de correlao entre as variveis. A multicolinearidade
acontece quando variveis so altamente correlacionadas, ou seja, acima de 0.90, o
que muito bom para a AF, e a singularidade acontece quando as variveis so
perfeitamente correlacionadas. Com multicolinearidade, os efeitos so aumentados,
as variveis independentes esto inter-relacionadas. Se a varivel perfeitamente
relacionada s outras variveis, ento a singularidade est presente.
Raramente os resultados da AF so todos publicados, pois nem todos
possuem uma contribuio significativa para a interpretao dos dados e
elaborao de concluses para o assunto que est sendo abordado.
Conforme Valentin (2000), as informaes, que devem constar nas
publicaes, so:
as dimenses da matriz de dados: nmero de variveis e indivduos;
a natureza dos dados e as transformaes eventuais;
as figuras dos planos fatoriais;
a necessidade de anlises preliminares para testar a estabilidade e, se for
preciso, eliminar certas variveis ou observaes.
40
3 COMPREENDENDO AS TCNICAS
(b) acrescentando uma linha e coluna com as distncias, entre o grupo (UV) e os
demais grupos.
Repetir os passos 2 e 3 num total de (n-1) vezes, at que todos os objetos
estejam em nico grupo. Anotar a identidade dos grupos, que vo sendo
agrupados, e os respectivos nveis (distncias) nas quais isto ocorre.
A seguir, est o desenvolvimento da AA, pelos mtodos referentes ligao
simples e de ligao completa.
d var1, var1 = (20 20) 2 + (18 18) 2 + (11 11) 2 + (10 10) 2 = 0
d var1, var 5 = (49 20) 2 + (45 18) 2 + (7 11) 2 + (26 10) 2 = 49,9
1 2 3 4 5
1 2 3 4 5
1 0,0 30,5 22,7 21,8 42,9
2 0,0 8,8 21,3 67,4
D1 = 3 0,0 17,7 59,7
4 0,0 64,5
5 0,0
var 3 var 2
Logo D2 ser:
1 ( 23 ) 4 5
1 0,0 22,7 21,8 42,9
(23) 0,0 17,7 59,7
D2 =
4 0,0 64,5
5 0,0
1 ( 234 ) 5
1 0,0 21,8 42,9
D3 = (234) 0,0 59,7
5 0,0
(1234 ) 5
(1234) 0,0 42,9
D4 =
5 0,0
A Figura 12 refere-se ao quarto grupo, formado da anlise, no qual est
sendo adicionada a varivel 5 ao grupo de variveis j formado anteriormente
(1234).
40
35
Distncia entre grupos
30
25 III
20 II
15
I
10
5
Var5 Var4 Var3 Var2 Var1
1 2 3 4 5
1 0,0 30,5 22,7 21,8 42,9
2 0,0 8,8 21,3 67,4
D1 = 3 0,0 17,7 59,7
4 0,0 64,5
5 0,0
coluna 3. Esta distncia representado por d 23 = 8,8 , logo, esses sero os primeiros
Logo D2 ser:
1 ( 23 ) 4 5
1 0,0 30,5 21,8 42,9
(23) 0,0 21,3 67,4
D2 =
4 0,0 64,5
5 0,0
1 ( 234 ) 5
distncia dada por d ( 234)1 = 30,5 incluindo, assim, o indivduo 1 no grupo (234), e as
distncias sero obtidas pelo mtodo do vizinho mais distante, da mesma forma que
as anteriores:
d (1234 ) 5 = max{d 15 , d ( 234) 5 }= max{42,9, 67,4} = max d ( 234) 5 = 67,4
(1234) 5
(1234) 0,0 67,4
D4 =
5 0,0
60
50
Distncia entre grupos
40
30
20
10
0
Var5 Var4 Var3 Var2 Var1
Para analisar esse dendograma, deve-se ter cuidado, pois a unio de dois
grupos depende do par de objetos mais distantes. Pode-se dizer que um elemento
unir-se- a um grupo unicamente se for ligado a todos os elementos desse grupo.
Observando-se a Figura 15, possvel verificar que o maior salto est na
ltima etapa, se se fizer um corte no grfico entre a altura 30,5 e 67,4 ter-se- dois
grupos homogneos distintos. O primeiro grupo ser formado pelas variveis de um
a quatro, representado pela elipse, o segundo grupo ser formado pela quinta
varivel, representado pelo crculo, sendo que esta varivel distinta das demais,
pelo fato de ter formado um grupo isolado.
Comparando-se os resultados alcanados, e apresentados nas Figuras 13 e
15, pode-se notar que os dendrogramas, para o mtodo do vizinho mais prximo e
do vizinho mais distante, no diferem na alocao dos objetos, para esse exemplo
em particular.
Os algoritmos vistos produzem grupos que constituem uma proposio sobre
a organizao bsica e desconhecida dos dados. Entretanto, eles esbarram em uma
dificuldade, que a determinao do nmero ideal de grupos a serem formados
(REGAZZI, 2001).
52
(c )( )
n 1 n (3.1)
j =1
jj ,
c f jj , f
j, = j +1
rnm = ,
(c ) (f )
n 1 n 2 n 1 n
2
jj ,
c jj ,
f
j =1 j, = j +1 j =1 j, = j +1
n (3.2)
c
i =1
i
c= ,
n
n (3.3)
f
j =1
j
f= .
n
d11 =
1
4
[(22 22) 2 + (20 20) 2 + (24 24) 2 + (21 21) 2 = 0 ]
54
d12 =
1
4
[ ]
(24 22) 2 + (19 20) 2 + (20 24) 2 + (26 21) 2 = 3,39
d13 =
1
4
[ ]
(20 22) 2 + (22 20) 2 + (28 24) 2 + (24 21) 2 = 2,87
d14 =
1
4
[ ]
(26 22) 2 + (25 20) 2 + (23 24) 2 + (25 21) 2 = 3,81
elemento localizado na linha 13 e coluna 2, sendo que esta dada por d (13) 2 = 3,39 .
Logo:
55
(123 ) 4
(123) 0 3,54
D3 =
4 0
7,0
6,8
Distncia entre grupos
6,6
6,4
6,2
6,0
5,8
5,6
4 colheita 2 colheita 3 colheita 1 colheita
isso, pode-se dizer que essas duas variveis so semelhantes entre si. J as
variveis que representam a segunda e a quarta colheita formaram dois grupos
distintos entre si e entre o primeiro grupo formado, por se manterem isoladas das
demais. Pois ao se realizar um corte na altura prximo a 6,4 do eixo vertical,
distancia entre grupos, verifica-se que ficam suspensos trs grupos e que no tero
ligao entre si.
As menores distncias encontradas, atravs do mtodo do vizinho mais
prximo, sero utilizadas para compor a matriz cofentica. Essas distncias
encontradas passam a formar as linhas e as colunas dessa matriz. Logo, o elemento
2,87 estar localizado na linha 1 e coluna 3 da matriz cofentica. J o elemento da
3,39 estar localizado na linha 1 e coluna 2, e na linha 2 e coluna 3 da matriz
cofentica. O elemento 3,54 estar localizado nas seguintes linhas e seguintes
colunas: linha 1 e coluna 4, linha 2 e coluna 4, linha 3 e coluna 4, formando, assim, a
matriz cofentica C.
(1,3) = 2,87
(13,2) = 1,2 e 2,3 = 3,39
(123,4) = 1,4; 2,4; 3,4 = 3,54.
onde:
F = matriz fentica, na qual seus valores foram obtidos junto matriz inicial das
distncias.
C = matriz cofentica, na qual os valores so obtidos junto matriz final das
distncias, pelo mtodo do vizinho mais prximo.
Para obter o coeficiente de correlao cofentico, deve-se calcular os
valores da mdia e desvio padro das matrizes fentica e cofentica.
(X X)
n
2 (3.4)
S F2 = i =1
i
=
(X 1 X ) + (X 2 X ) + ... + ( X n X )
2 2 2
n 1 n 1
S= i =1
i
=
(X 1 X ) + (X 2 X ) + ... + (X n X )
2 2 2
n 1 n 1
S F = 0,46 = 0,68.
A mdia da matriz cofentica, calculada mediante a expresso do item 3.2.
Cov FC =
1
x. y
x. y (3.6)
n 1 n
xy = 76,99
x = 22,64
y = 20,27,
logo a Cov FC dada por:
1 22,64.20,27
CovFC = 76,99 = 0,10.
6 1 6
Sendo mais conveniente usar, para medida de correlao cofentica, o
coeficiente de correlao linear de Pearson, definida por:
Cov ( F , C ) (3.7)
rcof = rFC =
V ( F ).V ( C )
0,10 ~
rcof = = 0,56.
(0,46)(0,07)
Como rcof = 0,56 < 0,7, pode-se concluir que o mtodo utilizado no foi
Matriz de varincia-covarincia
as p variveis, tomadas duas a duas sendo, resumidas por suas covarincias sij .
Conforme Regazzi (2001), considerando as variveis X1, X2, ..., XP, denota-
se a matriz de covarincia por S da seguinte forma:
S 12 S 12 . . . S1 p (3.8)
Vr ( X 1 ) Cv ( X 1 , X 2 ) ...... Cv ( X 1 , X p )
S 22 . . . S2p
Cv ( X , X ) ...... Cv ( X 2 , X p )
S =
1 2 Vr ( X 2 ) ou S = . . . S3p
....... ...... ...... ......
. . .
Cv ( X 1 , X p ) Cv ( X 2 , X p ) ...... Vr ( X p ) . .
S P2
n
(3.9)
1
n ( X ij , ) 2
Vr ( X j ) =
n 1 i = 1
X ij ,
2 i =1
n
61
n n (3.10)
X ij X ij ,
1 n i =1 i = 1
Cv( X j , X j , ) = X ij X ij ,
n 1 i =1 n
do item 3.10.
Substituindo-se os dados na expresso, tem-se que:
1 51,5.52,1
Cv( x, y ) = 538,44
5 1 5
1
Cv ( x, y ) = [538,4 536,63] = 0,45.
4
Logo, a matriz S assim constituda:
0,69 0,45
S=
0,45 0,48
Matriz de correlao
1 r12 . . . r1 p (3.11)
r 1 . . . r2 p
12
R = . . . . . .
. . . . . .
r1 p r2 p . . . 1
na qual:
Cv( X j , X j , ) (3.12)
r jj , = r ( X j , X j , ) = Cv( Z j , Z j , ) =
Vr ( X j ).Vr ( X j , )
para j = 1, 2, ....., p.
63
2
Cv( X 1 , X 1 ) S x 1 (3.13)
r11 = = 2 ,
S x1 .S x1 Sx1
0,832
r11 = = 1.
0,832
Logo, a matriz de correlao R ser assim constituda:
1 0,79
R= .
0,79 1
A soluo, utilizando-se a matriz de correlao, recomendada quando as
variveis so medidas em escalas muito diferentes entre si, pois essa matriz
equivalente matriz das variveis padronizadas, (JOHNSON & WICHERN, 1992).
64
I = 0
S (3.14)
r r
X,
SX = (3.15)
r
uma matriz pxp de todos
no qual, X uma matriz pxp de todos autovetores, e
autovalores.
r
Ento x dito autovetor ou vetor caracterstico da matriz S, associada com
.
o valor
Para determinar as componentes principais, a partir da matriz S, procede-se
da seguinte forma:
a) Resolve-se a seguinte equao caracterstica para obter a soluo:
I = 0 , isto ,
S
I = 0.
S
matriz S.
65
,
Sejam , .....,
as p solues, temos que a cada autovalor
1 2 p i
xi1
x
r
i2
p
xi = . com r r
x
j =1
2
ij = 1 ( xit .xi = 1) , sendo esta a condio de normalidade.
.
xip
p
r r
e x
j =1
ij x kj = 0 para i k ( x it .x k = 0 para i k ) , sendo esta a condio de
xi1
xi 2
r
xi = . , um autovetor no normalizado.
.
x
ip
r
o um vetor nulo, de dimenso px1.
O autovetor normalizado dado por:
r
Conforme Regazzi (2001), tomando os elementos do vetor xi , assim
ii) Vr( X ) =
i i = Vr (Yi ) ;
p
Vr (Yi )
(3.17)
p
.100 = p
i
.100 = i
.100 ,
trao( S )
Vr (Y )
i =1
i
i =1
i
sendo que esta expresso representa a proporo da varincia total explicada pela
componente Yi .
2
Z2
21 I
22
II
x2 12 11
Z1
x1
1
Y
Figura 17 - Representao grfica dos autovalores e autovetores.
Fonte : Valentin 2000.
I = matriz identidade.
Mostra-se, a seguir, um exemplo numrico para o clculo dos autovalores e
autovetores, utilizando-se os dados da Tabela 09.
Seja S a matriz de varincia e covarincia amostral, dada por:
0,69 0,45
S = ,
0,45 0,48
para encontrar os autovalores e autovetores, deve-se partir da seguinte equao
caracterstica:
I = 0.
S-
0,69 0,45 0
0,45 0,48
= 0.
0
Realizando-se a subtrao entre as matrizes, obtm-se a matriz:
69
0,69 0,45
= 0.
0, 45 0, 48
Resolvendo-se o determinante dessa matriz, encontra-se o seguinte
resultado:
( 0 , 69 )( 0 , 48 ) ( 0 , 45 ) 2 = 0 .
Unindo-se os termos semelhantes, encontra-se uma equao do segundo
grau:
0,48
0,33 0,69 +
2 0,20 = 0.
(2)(1)
= 1,05 e
so: = 0,13.
1 2
associado ao autovalor .
1
r r
SX = X , para
= 1,05.
1
:
clculos de forma anloga ao autovalor 1
r r
SX = X , para
= 0,13.
2
Componentes Autovalores
X1 X 2 .. X p X1 X2 ..... X P
Principais i
x12 ..
x p
.100 .100
x11
p
Y1
x11 x12 .. x1 p 1p 1 / 1 /
1 1
s1
1
s2
1
sp i
i
i =1 i = 1
x21 x2 p
x22 .. p
.100 p
.100
Y2
x 21 x 22 .. x 2 p 2 / /
1 +
2
2
s1 2
s2
2
sp i
2 i
i = 1 i = 1
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
x p1 x p 2 .. x pp p
.100 p
.100
Yp
x p1 x p 2 .. x pp p / /
1 + 2 + ... +
p p
s1
p
s2 p
sp i
p i
i = 1 i = 1
2 x 21 x 22 .... x 2 p y 21 y 22 .... y 2 k
. . . . . . .
. . . . . . .
. . . . . . .
n x n1 x n 2 .... x np y n1 y n 2 .... y nk
Fonte: Regazzi (2001)
. . . .... .
. . . .... .
Yn1 = x11 X n1 + x12 X n 2 + .... + x1 p X np
Assim, faz-se, sucessivamente, at encontrar todos os componentes da
anlise.
Os componentes so combinaes lineares no correlacionados de
Y1 , Y2 , ....., Yp , cuja varincia a maior possvel.
( , e ) ; onde
, e ) , ... , ( 0; e fornecero as novas combinaes
...
2 2 p p 1 2 p
tr R
76
Caso 1 35 30 28 4 3 100
Caso 2 45 30 9 8 8 100
Caso 3 75 7 7 6 5 100
Caso 4 22 21 20 19 18 100
90
70
Percentual da Varincia Explicada
50
30
10
Caso 1
Caso 2
Caso 3
-10
CP1 CP2 CP3 CP4 CP5 Caso 4
Componentes Principais
derivados da matriz de varincia S, e a equao rYi ,Zk = eki quando os
i
24,5 26 0
26 74,2
= 0.
0
Realizando-se a subtrao entre as matrizes, obtm-se a matriz:
24,5 - 26
= 0.
26
74,2 -
= b
(b) 2 4(a)(c)
2(a)
(13,38).(85,32) = 1141.6.
81
1
Se se resolver a seguinte expresso .100 , ser obtida a proporo da
trao S
varincia total, explicada por cada componente principal. Observa-se que a primeira
85,32
componente explica .100 = 86,44% , e a segunda componente explica
98,7
13,38
.100 = 13,56% .
98,7
, explica 86,44% da
Ou seja, a primeira componente relativa raiz 1
86,44% da varincia explicada pelo primeiro eixo fatorial, e 13,56% pelo segundo.
Como pode-se observar, acima, cada componente principal sintetiza a
mxima proporo de varincia contida nos dados.
Deve-se observar, tambm, que a adio de duas razes caractersticas d
98,7, que nada mais que o segundo termo da equao.
= 85,32, ser dado pelo
O clculo da primeira componente referente, a 1
r
As coordenadas de x11 e x12 do autovetor X 1 so calculadas pela equao
matricial:
r
I X = 0.
S 1 1
24,5 26 1 0 x11 0
26 74,2 85,320 1 = 0.
x12
matriz I e subtraindo da matriz S, obtm-se
Multiplicando-se o autovalor 1
as seguintes matrizes:
82
60,82 26
= 0,
26 11,12
x11 = 0,43,
= 85,32, ser:
e o autovetor associado ao primeiro autovalor 1
r 0,43
x1 = e, sua norma ser de:
1
r
x1 = ( 0,43) 2 + (1) 2 = 1,09.
1 0,43
x1 = ,
1,09 1
logo, o primeiro autovetor normalizado ser:
0,39
x1 = ,
0,92
e a sua norma ser:
83
x1 = ( 0,39) 2 + (0,92) 2 = 1.
Como pode-se observar x1t x1 = 1 , sendo esta a primeira restrio feita por
Morrison (1976), para que o sistema tenha soluo nica.
Logo, o primeiro componente principal ser:
Y1 = 0,39 X 1 + 0,92 X 2 .
= 13,38 :
O segundo componente principal dado pela outra raiz 2
r
I X = 0.
S 2 2
24,5 26 1 0 x21 0
26 74,2 13,38 0 1 = 0.
x22
matriz I e subtraindo da matriz S, obtm-
Multiplicando-se o autovalor 2
se as seguintes matrizes:
24,5 13,38 26 x21 0
= .
26 74,2 13,38 x22 0
11,12 26
= 0,
26 60,82
ou, ainda, por x21 = x22 = 0 , ou seja, o vetor passando pela origem.
Devido a isso, pode-se deixar uma das equaes (neste caso a segunda), e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( x22 = 1 ). Dessa
forma, tem-se:
11,12 x21 + 26.(1) = 0 , logo a incgnita x21 , ser:
26
x21 = = 2,34
11,12
= 13,38 , ser:
e o autovetor, associado ao segundo autovalor 2
84
2,34
x2 = ,
1
e sua norma ser de:
x2 = (0,92) 2 + (0,39) 2 = 1.
Y2 = 0,92 X 1 + 0,39 X 2
Y21 = 0,92(100) + 0,39(76) = 62,36
Y22 = 0,92(93) + 0,39(82) = 53,58
Y23 = 0,92(102) + 0,39(81) = 62,25
Tabela 17 Mostra a substituio da matriz dos dados originais por uma nova matriz, gerada a partir
das combinaes lineares.
Novas variveis geradas para
Observaes Variveis originais
as componentes principais
X1 X2 Y1 Y2
1 100 76 108,22 -62,36
2 93 82 111,71 -53,58
3 102 81 114,3 -62,25
4 95 68 99,61 -60,88
5 90 62 92,14 -58,62
86
. x11
rx1 y1 = 1
Vr ( x1 )
0,39
rx1 y1 = 85,32. = 0,73
24,5
. x12
rx2 y1 = 1
Vr ( x 2 )
0,92
rx 2 y1 = 85,32 . = 0,99
74,2
. x 21
rx1 y2 = 2
Vr ( x1 )
0,92
rx1 y 2 = 13,39. = -0,68
24,5
. x 22
rx2 y 2 = 2
Vr ( x 2 )
0,39
rx 2 y 2 = 13,39 . = 0,17.
74,2
A Tabela 18 mostra os componentes principais encontrados na anlise, os
autovalores, os autovetores, a correlao existente entre as variveis, a
percentagem de explicao de cada componente e a percentagem total de varincia
acumulada pelas componentes principais.
X1 X2 X1 X2
Y1 85,32 0,39 0,92 0,73 0,99 86,44% 86,44%
X1 X2 Z1 Z2
1 100 76 0,81 0,26
2 93 82 -0,61 0,95
3 102 81 1,21 0,84
4 95 68 -0,20 -0,67
5 90 62 -1,21 -1,37
93 96 82 73,8
Z 12 = = 0,61 Z 22 = = 0,95
4,95 8,61
102 96 81 73,8
Z 13 = = 1,21 Z 23 = = 0,84
4,95 8,61
95 96 68 73,8
Z 14 = = 0,20 Z 24 = = 0,67
4,95 8,61
90 96 62 73,8
Z 15 = = 1,21 Z 25 = = 1,37
4,95 8,61
Realizando-se uma estatstica descritiva, nas duas variveis, tm-se os
seguintes resultados:
88
1 0,61 0
= 0.
0,61 1
0
Realizando-se a subtrao entre as matrizes, obtm-se a matriz:
1 0,61
= 0.
0,61 1
89
2 (2) 2 4(1)(0,63)
= logo, os dois autovalores resultantes da equao so:
2(1)
= 1,61 e
= 0,39.
1 2
(1,61).(0,39) = 0,63.
1
Se a seguinte expresso for resolvida .100 , tem-se a proporo da
trao R
varincia total, explicada por cada componente principal. Observa-se que a primeira
1,61
componente explica .100 = 80,50% , e a segunda componente explica
2
0,39
.100 = 19,50% .
2
, explica 80,50% da
Ou seja, a primeira componente relativa raiz 1
dos dados.
90
= 1,61 e
Essa varincia ser distribuda entre = 0,39, ou seja, 80,50%
1 2
, conforme a equao:
autovetor associado a 1
I e = 0.
R 1 1
1 0,61 1 0 e11 0
0,61 1 1,610 1 e = 0.
12
matriz I e subtraindo da matriz R, obtm-
Multiplicando-se o autovalor 1
se as seguintes matrizes:
1 1,61 0,61 e11 0
0,61 1 1,61 e = 0.
12
Multiplicando-se essas matrizes encontra-se o seguinte sistema:
0,61e11 + 0,61e12 = 0
.
0,61e11 0,61e12 = 0
I = 0
Esse sistema de equaes indeterminado em virtude de R
0,61 0,61
= 0.
0,61 0,61
Devido a isso, pode-se deixar uma das equaes (neste caso a segunda) e
atribuir um valor qualquer, que no seja nulo, a uma das incgnitas ( e12 = 1) . Dessa
forma, tem-se:
- 0,61 e11 + 0,61.(1) = 0
- 0,61 e11 = - 0,61, logo e11 ser:
e11 = 1,
= 1,61, ser:
e o autovetor associado ao primeiro autovalor 1
1
e1 = e, sua norma ser:
1
0,71
e1 = ,
0,71
e a sua norma ser:
e1 = ( 0,71) 2 + (0,71) 2 = 1.
Como pode-se observar e1t e1 = 1 , sendo esta a primeira restrio feita por
Morrison (1976), para que o sistema tenha soluo nica.
Logo, o primeiro componente principal ser:
Y1 = 0,71Z 1 + 0,71Z 2 .
= 0,39 :
O segundo componente principal dado pela outra raiz 2
2 I e = 0.
R 2
1 0,61 1 0 e21 0
0,61 1 0,39 0 1 e = 0.
22
matriz I e subtraindo da matriz R, obtm-
Multiplicando-se o autovalor 2
se as seguintes matrizes:
1 0,39 0,61 e21 0
= .
0,61
1 0,39 e22 0
1
e2 = ,
1
e sua norma ser de:
e2 = (0,71) 2 + (0,71) 2 = 1.
X1 X2 Y1 Y2
1 100 76 0,76 -0,39
2 93 82 0,24 1,10
3 102 81 1,46 -0,26
4 95 68 -0,62 0,34
5 90 62 -1,83 -0,11
rz1y1 = e11 rz1 y1 = 0.71 1,61 = 0,90
1
rz 2 y1 = e12 rz 2 y1 = 0.71 1,61 = 0,90
1
rz1y 2 = e 21 rz1 y 2 = 0.71 0,39 = -0,44
2
rz 2 y2 = e 22 rz 2 y 2 = 0.71 0,39 = 0,44
2
Figura 20 - Caixa de seleo para importar os dados do excel para o programa statistica.
Figura 21 - Caixa de seleo para importar os todos os dados do excel para o programa statistica.
97
Figura 22 - Caixa de seleo para importar os dados do excel para o programa statistica,
por linhas e por colunas.
A Figura 25 mostra a caixa de dilogo das variveis para AA. Nesta caixa
existem vrias opes para a realizao da anlise. Selecionando a opo
Variables, possvel visualizar e selecionar as variveis que o pesquisador deseja
incluir na anlise. Na opo Imput in file encontra-se as opes Raw data, que
utilizada para os dados brutos do banco de dados. Outra opo desta caixa de
dilogo Cluster, que possibilita realizar a anlise de duas formas: se selecionar
variables, o agrupamento ser feito por colunas e se for selecionado cases o
agrupamento ser realizado por linhas.
A caixa de seleo mostra, ainda, a opo Amalgamation (linkage) rule, na
qual se encontra os mtodos de encadeamento: Single Linkage, que se baseia na
distncia mnima; Complete Linkage, que se baseia na distncia mxima entre
objetos, dentre outras distncias que se encontram dispostas para serem utilizadas
na anlise. A ltima opo desta caixa de dilogo Distance measure, na qual o
pesquisador poder selecionar o tipo de distncia que deseja utilizar em seu
trabalho. importante lembrar que a distncia mais utilizada a Euclidean
distances, ou seja, a distncia euclidiana.
102
1,4E7
1,2E7
Distncia entre os grupos
1E7
8E6
6E6
4E6
2E6
0
MI 01/02
MI 99/00
MI 97/98
MI 95/96
CA 01/02
CA 99/00
CA 97/98
CA 95/96
TRI 01/02
TRI 99/00
TRI 97/98
TRI 95/96
AR 01/02
AR 99/00
AR 97/98
AR 95/96
GIR 01/02
GIR 99/00
FE 01/02
FE 99/00
FE 97/98
FE 95/96
SO 01/02
SO 99/00
SO 97/98
SO 95/96
Figura 30- Grfico das distncias nas quais os grupos foram formados.
2,5E7
Distncia entre os grupos
2E7
1,5E7
1E7
5E6
PR MT RS DF GO MS SC SP
V5 = Dpteros V6 = Colepteros
107
V7 = Aranae V8 = Diplpodes
V15 = Temperatura
Olhando para a Tabela 23, pode-se observar que os quatro primeiros fatores
possuem autovalores, que correspondem a 33,05%, 18,10%, 13,66%, e 9,49% da
varincia total, explicada pelos autovalores do modelo, ou seja, explicam juntos
74,31% das variaes das medidas originais. Decidindo-se por estes quatro fatores,
o pesquisador sabe qual o nvel de explicao est conseguindo de seus dados, e
decide se vale a pena a sntese fornecida por essa reduo de dimensionalidade, ou
se deve considerar todas as variveis. Conforme Pereira (2001), essa uma
medida de ajuste do modelo anlise de dados: no exemplo, o modelo com quatro
fatores ter 74,31% de representao real.
A Figura 38 mostra a seleo dos componentes principais atravs do mtodo
grfico Scree Plot, sendo que a porcentagem de variao explicada pela
componente est no eixo das ordenadas, e os autovalores esto representados em
ordem decrescente no eixo das abscissas. Como se pode observar, na Figura 35, as
quatro primeiras componentes explicam 74,31% da varincia total, havendo uma
estabilizao do grfico aps a quinta componente, sendo consideradas as quatro
primeiras. Pode-se observar, tambm, que as outras componentes apresentam uma
baixa explicao, no sendo aconselhvel inclu-las na anlise.
5,0
4,5 33,05%
4,0
3,5
3,0
Autovalores
2,5 18,10%
2,0 13,66%
1,5
9,49%
7,27%
1,0 6,42%
3,98%
0,5 2,66%
1,99%
1,43%,99%
,66%,30%
0,0
-0,5
-2 0 2 4 6 8 10 12 14 16
Nmero de autovalores
concluir que as variveis esto interligadas umas com as outras. O ideal realizar
um teste de significncia para as correlaes, pois desta forma tm-se a certeza se
a correlao significativa ou no. O que chancela para a realizao da AF seria o
KMO teste e o teste de Bartellet. Isso mostra que o estudo das variveis no deve
ser feito de forma isolada, mas, sim, de maneira conjunta, com a utilizao de uma
tcnica adequada, neste estudo a ACP.
A Figura 43 mostra a caixa de seleo de comandos para ACP, seleciona-
se: Scores/Factor score coefficients, para extrair os autovetores, que definam a
direo dos eixos, para AF e ACP.
A Figura 48, na opo Variables for analysis: mostra que todas as variveis
foram selecionadas, no existindo variveis suplementares para o estudo, basta
clicar em Ok.
Logo aps, clicar, com o boto auxiliar, no meio da tela, na qual esto as
variveis selecionadas. Abrir a caixa de seleo da Figura 52, na qual existem duas
opes de padronizao: por colunas, sendo esta a utilizada neste trabalho,
selecionando Fill/Standardize Block/Standardize Columns, ou por linhas,
selecionando Fill/Standardize Block/Standardize Rows.
Figura 59 - Caixa de seleo das variveis que iro compor a matriz de correlao.
devem ser utilizadas. A rotao mais utilizada a Varimax normalizada, pois esta
mantem os eixos perpendiculares entre si, ou seja, ortogonais.
A Figura 65 mostra a caixa de seleo de comandos para ACP, seleciona-
se: Loadings/ no Factor rotation (Varimax normalized)/Summary:Factor loadings,
para se fazer a rotao nos eixos, possibilitando uma melhor visualizao das
variveis mais representativas em cada componente.
fazer os planos fatoriais, a classe Insecta ser mantida fixa no eixo do x, e os fatores
do eixo y sero modificados a cada plano, para que se possa verificar a importncia
de cada varivel na formao de cada fator.
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
0,8
CHILOP.
0,6
CRUSTACE
Classe Crustcea
0,2 CAROS
ARANAE
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
HYMENOP DIP.
-0,4
-0,6
-0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Classe Insecta
Figura 68 - Grfico representando a relao entre fatores (fator 1 e fator 2) e variveis segundo factor
loadings.
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
0,8
CHILOP.
II
0,6
CRUSTACE
0,4 DIPLOP. COLEM.
Fator 2
CAROS
0,2
ARANAE I
III
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
HYMENOP DIP.
-0,4
-0,6
-0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fator 1
Figura 69 - Grfico dos planos fatoriais, que representam as perpendiculares em relao ao fator 1.
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
0,8
CHILOP. II
0,6
CRUSTACE
Classe Crustcea
HYMENOP DIP.
-0,4
-0,6
-0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Classe Insecta
Figura 70 - Grfico dos planos fatoriais, que representam as perpendiculares traadas em relao ao
fator 2.
Observando-se esse grfico, o grupo II, das variveis que esto contidas na
elipse menor, constata-se que so as variveis que possuem uma maior
representatividade em relao a classe Crustcea, pois esto localizadas distante da
origem, sendo que as demais variveis possuem baixa representatividade em
relao a este fator.
A Figura 71 representa os planos fatoriais, da relao entre variveis da
classe Insecta com as variveis da classe Crustcea da AF. Nestes planos foram
traadas perpendiculares em relao bissetriz dos planos, fazendo-se uma anlise
conjunta de duas classes.
Aps, encontra-se o significado, isto , atribui-se um nome para cada fator e
pode-se verificar como as variveis esto influenciando, concomitantemente, estes
fatores. Para tal, traa-se a bissetriz, que passa pelo primeiro e terceiro quadrantes
do plano fatorial, e, novamente, traa-se segmentos de reta perpendiculares
135
Plano Fatorial
Fator 1 x Fator 2
1,0
MOLUSC.
ANELID.
0,8
CHILOP.
II
0,6
CRUSTACE
0,4 DIPLOP. COLEM.
Fator 2
0,2 CAROS
ARANAE
I
III
0,0
ISOP.
HEMIP.
COLEOP.
-0,2
HYMENOP DIP.
-0,4
-0,6
-0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fator 1
Figura 71 - Grfico dos planos fatoriais, da relao entre variveis do fator 1 com 2 em relao
bissetriz.
DIPLOP.
ISOP.
COLEM.
ANELID.
MOLUSC. COLEOP.
CAROS
CRUSTACE
HEMIP.
CHILOP.
HYMENOP
ARANAE
DIP.
A Figura 76, na opo Variables for analysis: mostra que todas as variveis
foram selecionadas, inclusive as suplementares, basta clicar em Ok.
138
1,0
MOLUSC.
ANELID.
CHILOP.
0,5 DIPLOP.
II I
Classe Crustcea: 18,10%
CRUSTACE
COLEM. *H2O
ISOP.
ARANAE
0,0
ACAROS
HYMENOP
*Temp
COLEOP.
HEMIP.
DIP.
-0,5
III IV
-1,0
C2 C13
4
2 C14
Fator 2: 18,10%
C9
C15
C11
C12C6
C10 C28
C8C27
C7
C22
C23
C25C21
0 C17
C19 C26
C4C30
C24
C16C5C18
C29
C3
-2
C1
-4
-6
-8
-14 -12 -10 -8 -6 -4 -2 0 2 4 6
Active
Fator 1: 33,05%
representando estas cinco variveis. Pode-se concluir, ainda, que as coletas que
possuem uma maior contribuio, na formao da combinao linear da classe
Crustcea, a segunda e a dcima terceira coleta (C2 e C13), que representam as
variveis Aneldeos, Moluscos, Chilpodas e Diplpodes. O restante dos organismos
e coletas no apresentam representatividade significativa, em relao a estes dois
fatores.
Nos outros planos principais, que correspondem ao fator 1 x fator 3 e fator 1
x fator 4, a anlise realizada de forma anloga a esse exemplo.
importante salientar que a interpretao da ACP consiste em definir o que
representa cada eixo, em termos de fator, responsvel pela ordenao das
amostras, do assunto que est sendo estudado. Conforme Valentin (2000), a
interpretao de um eixo deve ser baseada nas coordenadas das variveis neste
eixo, a partir das quais foi elaborada a matriz de correlao que deu origem aos
autovetores. Ao realizar ACP, deve-se observar os seguintes princpios:
que uma proximidade maior, ou menor, entre dois pontos-variveis, no plano,
traduz uma maior, ou menor, correlao entre essas variveis, principalmente
quando elas so afastadas do centro do plano;
a proximidade entre dois pontos-amostra (objeto) traduz uma certa similaridade
entre essas duas amostras, em termos de variveis.
5 REALIZANDO PESQUISAS
ARTIGO 1
MTODOS MULTIVARIADOS: UMA METODOLOGIA PARA AVALIAR A
SATISFAO DOS CLIENTES DA RBS-TV NA REGIO NOROESTE DO RS
A busca pela qualidade dos servios oferecidos pelas empresas, vem crescendo
gradativamente, a cada ano; uma vez que o cliente satisfeito com um servio oferecido tem
sido a principal meta das empresas que procuram manter-se competitivas no mercado. Esse
trabalho procurou avaliar a satisfao dos clientes da RBS-TV, da regio noroeste do estado
do Rio Grande do Sul, aps o recebimento de um determinado servio. Para isso, procedeu-se
a elaborao de um questionrio com perguntas acerca da satisfao do servio recebido.
Inicialmente, partiu-se para a anlise do questionrio, onde recorreu-se aos mtodos
multivariados, dentre eles a Anlise de Componentes Principais, Anlise Fatorial e a Anlise
de Cluster, para identificar quais as variveis de maior relevncia estatstica mostrado atravs
dos planos fatoriais aps a extrao das componentes principais.O nmero de variveis
originais foi composto de 14 variveis que, aps a aplicao dos mtodos suplacitados
estudou-se apenas 4 variveis. Aps a aplicao dos mtodos multivariados pode-se concluir
que os clientes da RBS-TV escolhem esse veculo de comunicao pelo retorno que possuem
com a mdia, a presteza do agente que os atende, por o anncio publicado ter atendido suas
necessidades e por ltimo as condies de pagamento.Os resultados obtidos sero usados pela
empresa para melhorar o atendimento e o desempenho frente aos seus clientes, trazendo,
assim, um retorno financeiro em maiores propores.
1. Introduo
uma elevada gama de atividades diferentes, que varia desde empreendimentos gigantescos,
que operam em uma base global, ate pequenas empresas que atendem a uma nica cidade ou
bairro.
Apesar dos servios se encontrarem presentes no cotidiano das pessoas e das
organizaes, foi somente a partir do advento da revoluo industrial que eles se tornaram
mais complexos e diversificados. A partir disso, o surgimento das profundas mudanas na
produo e nos setores financeiros, redes de transportes e de comunicaes levaram as
empresas a revisarem os seus mtodos e tcnicas de gesto, de forma a permitir uma maior
agilidade na tomada de decises e, conseqentemente, ganhos de mercado.
Na viso de Bateson e Hoffman (2001), o crescimento econmico acabou estimulando o
crescimento da indstria de servios, fazendo aumentar o nvel de prosperidade que levaram,
conseqentemente, as pessoas fsicas e jurdicas a ter menos tempo, optando com isso pela
troca de dinheiro por tempo, isto , as novas tecnologias trouxeram mudanas significativas
na natureza de diversos servios j existentes, bem como na criao de outros.
A nova postura tomada pelas organizaes em funo do novo cenrio econmico fruto
do mundo globalizado, tem levado as empresas a se posicionar no mercado procurando
atender as necessidades de um consumidor cada vez mais exigente.
Tm-se verificado ainda que o aumento e a capacitao das empresas concorrentes, em
funo de uma forte exigncia por parte dos clientes, vem fazendo com que a ampliao do
mercado de atuao da empresa junto a clientela no somente garanta um nvel de
lucratividade considervel, como tambm alavanque uma maior fidelizao dos seus produtos
ou servios.
No setor de servios Boiton e Lemon (1999) enfatizaram que cabe a empresa prestadora
da benfeitoria determinar a freqncia de seus contatos com os seus clientes, baseando-se em
avaliaes que fazem acerca de experincias com o servio que fora ofertado. Vale destacar
que os nveis dessa procura podem exercer um considervel impacto na lucratividade da
organizao no longo prazo.
Nesses termos, a qualidade do setor de servios de uma organizao, mais do que um
diferencial acaba representando uma condio sine qua non de sobrevivncia no mercado,
uma vez que a melhoria contnua da tecnologia, dos processos internos, das metas e dos
valores das organizaes leva a uma identificao das necessidades e dos desejos dos
consumidores visando fideliz-los a uma marca ou um servio prestado.
Finalmente, este trabalho encontra-se estruturado em cinco sees, a sabe: a segunda
seo faz uma breve reviso bibliogrfica sobre a qualidade e satisfao na prestao de
servios aos consumidores. A terceira seo mostra os aspectos metodolgicos. A quarta
seo evidencia os resultados empricos e a quinta seo traz as consideraes finais e
recomendaes para trabalhos futuros.
A satisfao dos consumidores passou nas ltimas dcadas a ser apontada como um dos
pilares da rea de marketing em servios, de forma que vem levando diversas empresas a
buscarem um diferencial medida que procura atender as reais necessidades de clientes mais
conscientes exigentes nesse mundo cada vez mais competitivo.
Na rea de marketing, a satisfao dos consumidores pode ser abordada dentro de um
enfoque comportamental, cuja dimenso pode ser a econmica, cognitiva e emocional
[Chauvel (1999)]. tambm notria nas vises de Fornell et al. (1996), Daker et al. (1998) e
Gale (1992), que o papel da satisfao de clientes seja um fator determinante no somente de
146
retornos crescentes, como tambm de lealdade por parte dos clientes atravs da gerao de
valor para os mesmos.
Para Anderson, Fornell e Lehmann (1994), a satisfao do consumidor afetada por trs
antecedentes ou determinantes, a saber: a qualidade percebida, o preo ou valor percebido e as
expectativas. A qualidade percebida refere-se a atual avaliao da performance da empresa, e
tende a influenciar positivamente na satisfao total do cliente em relao ao fornecedor.
Nesses termos, a qualidade percebida passa a ser um construto abstrato que procede, s
vezes, do objetivo e do afetivo. Tal definio passa a ser contrria quela de qualidade
objetiva de um produto, que se pode medir com relao a um certo nmero de caractersticas
observveis, como o nmero de defeitos, a durabilidade ou o preo [Crosby (1979) e Garvin
(1983)].
A qualidade ainda pode ser definida de forma abrangente amplamente na viso de
Zeithaml (1988) como superioridade ou excelncia. Por extenso, a qualidade percebida
vista como o julgamento do consumidor sobre a excelncia ou a superioridade global de um
produto ou de um servio. Essa qualidade percebida parece diferenciar-se, ento, da qualidade
objetiva ou real.
O segundo determinante da satisfao do consumidor o valor percebido ou o preo do
bem ou servio [Anderson, Fornell e Lehmann (1994); Fornell et al. (1996)]. A qualidade em
relao ao preo possui um impacto direto sobre a satisfao do consumidor. Ainda podendo
ser ressaltado o relacionamento existente entre a qualidade da oferta e o seu preo, bem como
os efeitos que confundem tal relao.
J o terceiro determinante da satisfao refere-se as expectativas criadas pelo
consumidor, bem como o conhecimento acumulado sobre a qualidade das ofertas de um dado
fornecedor. Busca-se avaliar se a qualidade atual tende a influenciar a satisfao do
consumidor, assim como, se as experincias passadas tambm so responsveis por essa
influncia, representadas pelas expectativas. Soma-se a tais as previses em relao
capacidade do fornecedor de manter a qualidade no futuro.
Kotler (2000), mostra que os clientes de hoje so mais difceis de serem agradados. Eles
so mais inteligentes, mais conscientes em ralao aos preos praticados, mais exigentes,
perdoam menos e so abordados por mais concorrentes com ofertas similares ou mesmo
melhores.
Logo, a reteno de clientes encontra-se intrinsecamente ligado aos conceitos do
comportamento do consumidor, no que tange a recompra e a atitude positiva em relao aos
produtos ou servios ofertados pelas organizaes, culminando com a forma de
relacionamento empresa-cliente denominada de lealdade.
Spreng, Mackenzie e Olshavsky (1996), tambm enfatizam que os desejos dos
consumidores devem ser includos como um determinante fundamental na satisfao dos
mesmos. Os resultados da satisfao ou insatisfao surgem quando se comparam as
percepes de performances de um produto, tanto com as expectativas, como tambm, com os
desejos dos indivduos. Nesse prisma, a satisfao advm no somente das expectativas e dos
desejos em relao ao bem ou servio, mas tambm, fruto das informaes nas quais tais
expectativas se baseiam.
De acordo com Olivier (1980) os consumidores criam as expectativas em relao a um
determinado bem ou servio antes de sua compra. As expectativas so comparadas ao
desempenho real assim que o consumidor compra ou usa o produto ou servio. Logo, as
expectativas podem ser confirmadas quando um produto tem o desempenho esperado.
Todavia, tais expectativas podem no ser confirmada quando o produto tem um desempenho
abaixo do esperado, ou confirmadas, quando apresenta um desempenho superior ao esperado
[Churchill e Surprenant (1982); Evrard (1993)].
147
Considerando que a qualidade dos servios prestados por diversas organizaes passou a
ser um fator competitivo relevante na conquista de novos mercado, percebe-se a existncia de
uma vasta literatura sobre esse tema, de forma que fornece s empresas interessadas no tema,
importantes benefcios estratgicos, tais como, a segmentao de mercados, retornos sobre
investimentos, reduo de custos e aumento da produtividade [Parasuraman et al. (1985)].
Gummesson (1998, p. 244) colabora com essa discusso mencionando que a qualidade
em servios como uma das contribuies evoluo do paradigma do marketing tradicional.
Isso pode ser bem compreendido caso a qualidade seja considerada como uma resposta
subjetiva do consumidor acerca do desempenho do prestador de servios. Trata-se de um
julgamento de natureza pessoal, cujo conceito extremamente relativo, formado por cada
cliente e, conseqentemente, mais difcil de ser mensurado.
No se podem esquecer ainda das vises de Bateson e Hoffman (2001, p. 363) a respeito
do que venha ser qualidade, isto :
Nessa mesma linha de raciocnio Gronroos (1993) tambm afirma que uma das formas
de administrar a qualidade de um servio prestado consider-lo do ponto de vista do cliente.
Neste caso, os consumidores escolhem os prestadores de servios ao comparar as percepes
que tm do servio percebido com os servios esperados, que chamado de qualidade de
servio percebida.
Eleutrio e Souza (2002), relatam que os programas de qualidade que no levem em
conta o significado de qualidade para que os clientes no obter resultados satisfatrios.
somente quando o prestador de servios compreender como os servios sero avaliados pelos
clientes que ser possvel saber gerenciar essas avaliaes e como influenci-las na direo
desejada.
Zeithaml, Parasuraman e Berry (1990), enfatizam que a chave para assegurar uma boa
qualidade de servios obtida quando as percepes dos clientes excedem as suas
expectativas. Embora tal raciocnio seja vlido, no basta apenas compreender a importncia
de fornecer servios com boa qualidade. necessrio haver um processo contnuo de
monitorao das percepes dos clientes sobre a qualidade do servio, identificando as causas
das discrepncias encontradas e adotar mecanismos adequados para a melhoria dos servios
prestados.
Finalmente, deve ser observado que existe uma gama de teorias que procuram explicar a
satisfao dos consumidores por um bem ou servio, que em sua grande maioria, convergem
para a opinio de que, mesmo com nomenclatura diferentes, tais teorias concordam com o
conceito de que o julgamento acontea por meio de padres pr-determinados (expectativas) e
a comparao de tais expectativas com um desempenho do produto ou servio, sendo que o
desempenho avaliado subjetivamente, pelo consumidor, tal como fora mencionado
anteriormente, com base em suas experincias e cognies.
3. Aspectos Metodolgicos
Na segunda fase desta pesquisa, que se refere a elaborao do questionrio, optou-se por
utilizar a escala de Likerti, exigindo dos entrevistados a indicao de um grau de concordncia
com afirmaes relacionadas no questionrio. Para fins de anlise, a cada uma das afirmaes
foi atribudo um escore numrico de 1 a 5. Essa variedade de graus, do ponto de vista
estatstico, apresenta maior confiabilidade para a anlise dos dados, pois as escalas com cinco
opes so mais confiveis que as de somente duas (Checklist). Alm disso, o uso da escala
de Likert permite que se determine a porcentagem de respostas positivas ou negativas, para
uma determinada questo.
Segundo Malhotra (2001) a Anlise Fatorial deve seguir alguns passos para sua
realizao:
Formular o problema;
Construir a matriz de correlao;
A Anlise Fatorial (AF) teve incio, no princpio do sculo XX com Karl Pearson e
Charles Spearman, que estudaram as medidas de inteligncia. Essa tcnica no se difundiu
com maior velocidade devido dificuldade em proceder aos clculos, os quais foram
facilitados com o advento do computador. Matematicamente a AF semelhante Anlise de
Regresso Mltipla, pelo fato de cada varivel ser expressa como uma combinao linear de
fatores subjacentes (Malhotra, 2001). Em pesquisas de marketing, por exemplo, pode haver
uma srie de variveis, a maioria correlacionadas as quais necessitam serem reduzidas de tal
forma que:
(k)
= Variao explicada (1)
trR
Onde:
r1, r2,...rn = correlao das variveis
r11, r12,...rkn = correlaes parciais
Conforme salienta Pereira (2001), a anlise de cluster pode ser sintetizada baseando-se
nos seguintes procedimentos:
a) Clculo das distncias euclidianas entre os objetos estudados no espao
multiplano de todas as variveis consideradas. Logo, a distncia euclidiana pode
ser calculada usando-se a expresso: D = ( x2 x1 ) 2 + ( y 2 y1 ) 2 , onde os pares
(x1,y1) e (x2, y2) so as coordenadas de pontos quaisquer no plano;
b) Seqncia de agrupamento por proximidade geomtrica;
c) Reconhecimento dos passos de agrupamento para identificao coerente de
grupos dentro do universo de objetos estudados;
d) Realizar as anlises atravs de um pacote estatstico.
4. Resultados Empricos
TABELA 1 Estatsticas descritivas das variveis analisadas por meio de uma escala de
Likert.
Variveis N Mdia Desvio Valor Valor
Padro Mnimo Mximo
Opo 155 4,000000 0,693195 2 5
Retorno 155 3,696774 0,824733 1 5
Anncio 155 3,774194 0,810230 1 5
Necessidade 155 3.812903 0,745437 2 5
Horrio 155 3,890323 0,743524 1 5
Atendimento 155 4,425806 0,654142 2 5
Solicitao 155 4,051613 0,700589 1 5
Disponibilidade 155 4,167742 0,611782 1 5
Presteza 155 4,238710 0,510715 3 5
Pontualidade 155 4,193548 0,645632 1 5
Ps-Venda 155 3,832258 0,903236 1 5
Preo 155 2,980645 1,053571 1 5
Condio 155 3,722581 0,793934 1 5
Continuar 155 3,961290 0,710623 1 5
Com relao a Tabela 1, pode-se verificar que as mdias das variveis analisadas
encontram-se em torno de quatro, ou seja, havendo um predomnio do nvel satisfatrio,
ficando apenas a varivel preo num nvel insatisfatrio.
Pode-se verificar, atravs do coeficiente de variao de Pearson, que a mdia dessas
variveis significativa estatisticamente, em torno de 22%, com exceo da varivel preo,
onde o coeficiente de variao est em torno de 33%, evidenciando que o preo a varivel
que revela maior disperso dentre a opinio dos entrevistados. A mdia de respostas da
153
varivel preo, foi igual 2,98, o que mostra que os valores representados pela opo muito
insatisfeito e insatisfeito, influenciaram a mdia para baixo.
Por outro lado o desvio-padro das variveis considerado baixo, no ocorrendo uma
variao elevada entre as respostas obtidas.
Como anlise preliminar, a AF utilizar o procedimento de anlise de cluster, pois, por
meio desta, ser possvel identificar quais so as variveis que pertencem a um mesmo grupo,
isto , possibilitando identificar quais variveis o cliente identifica como tendo as mesmas
caractersticas para ele, colaborando dessa forma, com a empresa em possveis formulao de
estratgias de vendas dos seus servios.
Na Figura 1, mostra-se o comportamento do dendograma com todas as variveis, no
qual pode-se identificar a formao de trs clusters, obtidos por meio de um corte transversal
feito na maior distncia entre os clusters, ou a critrio do pesquisador. O primeiro cluster
formado pela varivel preo, o segundo pelas variveis solic, pontu, prest, dispon e atend, e o
ltimo cluster formado pelas variveis pos-ven, condi, necess, anunc, hora, retor, cont e op.
22
20
18
16
14
12
10
2
PREO PONTU DISPON POS-VEM NECESS HORA CONT
SOLIC PREST ATEND CONDI ANUNC RETOR OP
22
20
18
16
14
12
10
4
PREO CONT SOLIC PREST DISPON ATEND POS-VEM CONDI HORA NECESS RETOR
22
20
18
Linkage Distance
16
14
12
10
6
PREO CONT SOLIC PREST ATEND POS-VEM CONDI HORA NECESS
Uma vez que dentro do segundo e do terceiro cluster ainda havia variveis com mesmo
perfil, retirou-se, novamente, as variveis atend e hora, respectivamente, formando-se um
novo dendograma, o qual segue apresentado na Figura 4.
155
22
20
18
16
Linkage Distance
14
12
10
6
PREO POS-VEM CONT PREST SOLIC CONDI NECESS
De acordo com a expresso denotada por (1), o percentual de varincia explicada pelo
primeiro autovalor (5,080402 / 14) 100 = 36,28859% o autovalor foi dividido por 14, pois
este nmero corresponde ao trao da matriz de correlao, onde a diagonal principal
formada por valores iguais a 1. Aps a extrao dos autovalores e percentual da varincia
explicada, necessrio decidir-se pelo nmero de fatores a serem retirados para anlise. Para
isso, utiliza-se o mtodo grfico sugerido por Cattel (1996), tal como fora mencionado
anteriormente.
Atravs do exame do grfico dos autovalores disposto na figura 1, observou-se que uma
queda menos acentuada que ocorreu entre o quarto e o quinto fator e analisando-se os
autovalores superiores a 1, observa-se que pode-se considerar at o quarto fator.
6,0
5,5
5,0
4,5
4,0
3,5
Valor
3,0
2,5
2,0
1,5
1,0
0,5
0,0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Nmero de autovalores
Visando encontrar os planos fatoriais realizou-se uma rotao varimax, onde as cargas
fatoriais mais elevadas so as responsveis pelas denominaes dos fatores e so
estatisticamente significativas, conforme a Tabela 3.
157
1,0
PREST
0,9
0,8
0,7
0,6
PONTU
Fator 2
0,5
0,4 DISPON
0,3
SOLIC
ATEND
0,2 CONT
HORA
ANUNC OP
0,1 PREONECESS
POS-VEM
RETOR
CONDI
0,0
-0,1
-0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fator 1
representado pela varivel prest qual foi perguntado sobre a presteza do agente quando
cheguei na reunio, com mdia de resposta igual a 4,238710, e um fator loading de
0,899164. Sendo essas variveis de maior evidncia na anlise.
As variveis, que esto dentro da elipse, so as que possuem pouca expresso na
composio do fator, ou seja, no so significativas ao nvel de 7%. Logo, o cliente, ao
veicular sua empresa, leva em considerao o retorno que ir obter com a mdia, alm da e a
presteza do agente no momento da negociao.
1,0 NECESS
0,8
0,6
Fator 3
0,4
ANUNC
RETOR
0,2 CONT
PREOHORA
CONDI
POS-VEM OP
ATEND
PREST
PONTUSOLIC
DISPON
0,0
-0,2
-0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fator 1
No plano fatorial disposto na Figura 7 verifica-se que, no eixo das abscissas, permanece
a varivel retor que a varivel mais representativa, e no eixo das ordenadas a necess,
obtendo-se mdia de resposta de 3,812903 e factor loading igual a 0,921555. As outras
variveis encontram-se bastante prximas da origem e, portanto, no so significativas.
Analisando-se as Figuras 7 e 8, verifica-se que a varivel retorno a mais
representativa, ou seja, o cliente ao veicular um anncio na RBS-TV, leva em considerao
principalmente o retorno que ter com a mdia.
1,0 CONDI
0,8
0,6
Fator 4
0,4
PREO
CONT
0,2 ANUNC
ATEND
SOLIC RETOR
HORA OP
POS-VEMNECESS
PONTU
DISPON
PREST
0,0
-0,2
-0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fator 1
5. Consideraes Finais
possvel identificar as variveis que devam receber uma maior ateno pela agncia de
telecomunicao e que tambm possibilitou conhecer o que realmente os empresrios que
utilizam os servios da RBS-TV, desejam no momento de contratar os servios da emissora
6. Bibliografia
ARTIGO 2
Resumo
O objetivo desta pesquisa determinar o perfil dos alunos e dos Colgios Militares,
apresentam-se trs anlises aplicando-se tcnicas estatsticas multivariadas em dados de
rendimentos de ensino. Realiza-se, primeiramente, uma anlise descritiva dos dados de quatro
Colgios Militares, fazendo-se um cruzamento de variveis de rendimento escolar. A seguir,
parte-se para a anlise multivariada de alguns indicadores de ensino, utilizando-se anlise de
cluster, anlise de componentes principais, anlise fatorial e anlise discriminante. Na posse
de uma enorme quantidade de informaes a questo que surge naturalmente como
interpret-las e, obedecendo a natureza multivariada, como extrair informao relevante. Um
desafio enfrentado hoje pelo ensino a previso da trajetria dos alunos. Quais precisaro de
assistncia adicional para aprovao? Como aumentar a aprovao sem diminuir o contedo
programtico? Quais alunos tm maior probabilidade de ingressar em agremiaes e
atividades extracurriculares? O principal motivo que tem levado os administradores a investir
na busca de conhecimento tem sido a obteno de uma melhor viso sobre a extenso da base
de dados e a revelao de relaes implcitas de padres entre os dados que nem sempre so
visveis atravs da simples observao.
1. Introduo
Um desafio enfrentado hoje pelo ensino a previso da trajetria dos alunos. Quais
precisaro de assistncia adicional para aprovao? Como aumentar a aprovao sem diminuir
o contedo programtico? Quais alunos tm maior probabilidade de ingressar em agremiaes
e atividades extracurriculares?
Melhorar a gesto do ensino significa qualificar o seu produto. necessrio mensurar
estatisticamente as mltiplas variveis que representam os fatores de qualidade de ensino e
represent-las numa dimenso compreensvel para o administrador.
Nota-se claramente a excelncia no controle de informaes nos processos
administrativos das unidades militares, mais ainda, nas instituies educacionais, onde o
interesse a preparao e a assistncia dos futuros cidados.
Alm deste notado interesse, existe uma variedade de minuciosos processos que,
juntos, mantm a excelncia no ensino nacional. Processos esses controlados com rigor, como
o Processo de Seleo de Professores, Processo de Elaborao de Provas, Processo Ensino-
Aprendizagem, Processo de Controle da Disciplina, Processo de Aquisio de Materiais,
todos monitorados por quadros e mapas sumarizados que mostram as principais informaes
para auxlio na tomada de decises.
4. Anlise descritiva
Para traar o perfil dos alunos e dos Colgios em estudo, inicialmente aplica-se uma anlise
descritiva, na qual a populao em estudo composta por 3360 alunos dos quatro Colgios
Militares. Nesta anlise, procura-se relacionar o rendimento com a origem do aluno, onde o
rendimento representado pela varivel Mdia Geral da Srie (MGS).
A Figura 1, representando todos os Colgios Militares, apresenta uma concentrao maior de
alunos concursados com rendimento bom e muito bom, enquanto os alunos amparados
concentram-se no rendimento bom. Ainda se nota que o rendimento abaixo da mdia cinco,
ou seja, com meno insuficiente, encontra-se apenas nos alunos amparados.
163
1200
1000
800
600
400
200
0
B R I MB E B R I MB E
Amparado Concursado
Meno
Nota-se uma baixa proporo de alunos com meno Insuficiente (I) em relao s
menes Muito Bom (MB) e Bom (B). Da mesma forma, o CMSM, CMC e CMBH
apresentam comportamento semelhante ao modelo. Contudo, na Figura 2, que representa o
CMRJ, nota-se uma maior proporo de alunos com meno insuficiente na classe dos
amparados. Isso comprova um maior nmero de alunos com rendimento baixo nos
amparados, principalmente no CMRJ.
450
400
350
300
250
200
150
100
50
0
B R I MB B R I MB
Amparado Concursado
Meno
Dessa forma, prossegue-se o estudo com a identificao da relao entre outras variveis,
como o comportamento dos alunos e seu rendimento nas disciplinas.
4. Anlise multivariada
Variveis GrauComp Bio EF Fis Geo Hist LEM Lit Port Mat Qui
GrauComp 1,000
Bio 0,146 1,000
EF 0,221 0,137 1,000
Fis 0,231 0,671 0,255 1,000
Geo 0,170 0,608 0,236 0,667 1,000
Hist 0,158 0,420 0,295 0,569 0,623 1,000
LEM 0,128 0,541 0,093 0,566 0,540 0,528 1,000
Lit 0,214 0,621 0,163 0,653 0,694 0,702 0,615 1,000
Port 0,217 0,759 0,108 0,686 0,594 0,415 0,570 0,685 1,000
Mat 0,273 0,692 0,179 0,742 0,558 0,415 0,515 0,542 0,706 1,000
Qui 0,249 0,682 0,211 0,788 0,641 0,544 0,542 0,611 0,658 0,773 1,000
Tabela 1 Matriz de correlao entre as variveis
A nica disciplina que no apresentou alta correlao com as demais foi Educao
Fsica (EF). Nas demais disciplinas, existe uma alta correlao entre as variveis, o que
comprova a afirmao de que um aluno que apresenta um bom desempenho em uma
disciplina tambm apresenta nas outras, mas no significa que ele tenha um bom
comportamento ou bom rendimento em Educao Fsica.
A Figura 3 mostra o comportamento do dendograma com todas as variveis, na qual
pode-se identificar a formao de dois clusters, os quais possuem as variveis de maior
relevncia dentro do conjunto.
50
Distancias da ligao
40
30
20
10
0
GrauComp
Qui
Lit
Geo
Bio
Hist
Fis
Mat
Port
EF
LEM
usadas apenas as duas primeiras componentes para uma avaliao das variveis. Utilizaram-se
os autovalores, estimaram-se os autovetores para escrever a combinao linear que dar
origem aos fatores.
Depois de definidos os fatores de estudo, representam-se graficamente, na Figura 12,
as variveis no plano fatorial para comprovar os agrupamentos formados.
0,9
EF
0,8
0,7 GrauComp
0,6
0,5
Fator 2
0,4
Hist
0,3
Geo QuiFis
0,2
Lit
Mat
0,1
LEM Port
Bio
0,0
-0,1
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Fator 1
Aps a identificao das variveis significantes, parte-se para uma aplicao prtica,
onde, informa-se o provvel grau para as disciplinas selecionadas pela funo discriminante, e
apresenta-se um resultado gerado pela classificao.Utiliza-se, como exemplo um suposto
aluno a ser testado no modelo criado. Informa-se para Matemtica o grau igual 5,5, para
Geografia, o grau igual a 6 e Fsica, o grau igual a 6. Para a classificao do aluno foi
utilizada a distncia de Mahalanobis.
Dessa forma, pode-se afirmar, com 98,42209% de certeza, que o referido aluno foi
classificado na situao Aprovado sem realizar recuperao no final do ano letivo, pois o
menor valor da distancia a dos Aprovados.
5. Concluses e recomendaes
Referncias
BRAGA, Luis Paulo Vieira. Introduo minerao de dados. Rio de Janeiro: E-Papers
Servios Editoriais, 2004.
FERRAUDO, Antnio. Anlise multivariada. So Paulo: StatSoft South Amrica, 2005.
GIL, Antnio de Loureiro. Qualidade Total nas Organizaes. So Paulo: Atlas, 1992.
LOUZADA NETO, F.; DINIZ, C.A.R. Data mining: uma introduo. So Paulo: Associao
Brasileira de Estatstica, 2000.
MALHOTRA, Naresh K. Pesquisa de Marketing: uma orientao aplicada. Porto Alegre:
Bookman, 2001.
MAGNUSSON, Wiliam E.; MOURO, Guilherme. Estatstica sem matemtica. Londrina,
PR: Planta, 2003.
MORRISON, D.F. Multivariate statistical methods. 2. Ed., New York: Mc Graw Hill,
1976.
SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDERSHAN, S. Sistema de banco de
dados. So Paulo: Makron Books, 1999.
SNEATH, P. H. A.; SOKAL, R. R. Numerical taxonomy. San Francisco, USA: Freeman
Co.,1973.
STAIR. R. M. Princpios de sistemas de informao: uma abordagem gerencial. 2. ed. Rio
de Janeiro: LTC, 1998.
VIRGILLITO, Salvatore B. Estatstica aplicada. So Paulo: Alfa-Omega, 2004.
WERKEMA, M. C. C. As ferramentas da qualidade no gerenciamento de processos. Belo
Horizonte: Fundao Christiano Ottoni, 1995.
169
ARTIGO 3
PRODUO AGRCOLA: UMA SINTESE MEDIANTE TCNICAS ESTATSTICAS
Lorena Vicini
Resumo
Neste trabalho, tem-se por objetivo analisar a produo de gros no setor agroindustrial, nos
estados brasileiros, no perodo de 1995 a 2002. Para que se cumpra este objetivo, sero
utilizadas tcnicas da anlise multivariada e a anlise de varincia. A anlise de varincia
utilizada como uma tcnica confirmatria, em relao aos resultados obtidos na anlise
multivariada. Mediante anlise dos resultados, foi possvel identificar, no decorrer deste
perodo, as caractersticas regionais, ou seja, o tipo de cultura que predominante em cada
regio. Concluiu-se, ento, que os estados que possuem os maiores ndices de produo de
gros do pas, e o tipo de cultura que predomina nesses, so as seguintes: arroz no RS; soja,
trigo, milho e feijo no PR; caf em MG. Outras regies tambm produzem, mas com uma
menor representatividade em relao produo nacional de gros, so os estados de RO, AC,
AM, RR, AP, TO, MA, PI, CE, RN PB, PE, AL, SE BA, ES, RJ, SC, DF. Os resultados, aqui
obtidos, podem contribuir para a formao de polticas de incentivo agroindstria nacional,
bem como no desenvolvimento das regies que no esto apontados como destaque na
produo.
1 Introduo
correes, esse passa a ser produtivo. Outro fator, que deve ser levado em considerao, o
grande territrio brasileiro. Isso tambm contribui para que o pas se destaque, cada vez mais,
em relao ao cenrio mundial na produo de alimentos.
A agroindstria um dos principais segmentos da economia brasileira, com
importncia tanto no abastecimento interno como no desempenho exportador do Brasil. Uma
avaliao recente estima que sua participao no Produto Interno Bruto (PIB) seja de 12%,
tendo uma posio de destaque entre os setores da economia, junto com a qumica e a
petroqumica. Na dcada de 70, a agroindstria chegou a contribuir com 70% das vendas
externas brasileiras. Atualmente, essa participao est em torno de 40%, no s pela
diversificao da pauta de exportaes, mas tambm pela tendncia queda dos preos das
commodities agrcolas, nos ltimos 20 anos. Ainda assim, o setor cresceu e aumentou o valor
das exportaes em quase todos seus segmentos (SILVEIRA, 04/03/05).
O objetivo do trabalho a analisar, por meio de tcnicas estatsticas, como comportou-
se a produo de gros no pas, no perodo de 1995 a 2002, de forma a mostrar,
estatisticamente, as diferenas significativas entre as regies produtoras.
2 Metodologia
3 Resultados e discusses
as mais distantes, pois esto nos extremos do dendograma. As produes mais similares so
as de feijo e as de girassol. Vale lembrar, aqui, que a altura do dendograma corresponde s
mdias de produo de cada cultura.
Dendograma
1,6E7
1,4E7
1,2E7
1E7
Distncia
8E6
6E6
4E6
2E6
0
CA 01/02
CA 99/00
CA 97/98
CA 95/96
AR 01/02
AR 99/00
AR 97/98
AR 95/96
MI 01/02
MI 99/00
MI 97/98
MI 95/96
FE 01/02
FE 99/00
FE 97/98
FE 95/96
SO 01/02
SO 99/00
SO 97/98
SO 95/96
TRI 01/02
TRI 99/00
TRI 97/98
TRI 95/96
GIR 01/02
GIR 99/00
Aps esta anlise, efetuou-se o estudo da ACP e AF, com a inteno de se obter
quais as variveis mais importantes, e entender o seu inter-relacionamento.
Embora existam diversos mtodos para encontrar os autovalores e autovetores, a
ACP a que melhor desempenha este papel, sem que o pesquisador possua um profundo
conhecimento, pois dessa forma sempre se tem a garantia de se obter fatores nicos e no-
correlacionados (JOHNSON,1995).
Existem dois mtodos para determinar o nmero de componentes a serem utilizados
na anlise. O primeiro consiste em selecionar aquelas componentes cujos valores prprios
sejam superiores a 1, ou que possurem uma varincia igual ou superior a 70%, conforme
Tabela 01. Esse critrio de seleo sugerido por Kaiser (1960 apud MARDIA, 1979).
Neste trabalho, as cinco componentes iniciais acumulam 98,63% da varincia total
dos dados, ou seja, aproximadamente 98,63% da variabilidade dos dados explicada pelas
cinco primeiras componentes. Isso mostra que, de 26 variveis com 27 observaes, passa-se
a utilizar cinco componentes com 27 observaes que representam o conjunto original,
havendo, dessa forma, uma reduo de dimensionalidade do problema, com perda de
explicao de 1,37%.
173
16
14
12
10
Valor
0
Nmero de autovalores
Figura 02: Proporo da variao explicada pelas componentes.
representando o fator 1, que representado pelas variveis MI, TRI e SO, em relao ao fator
2, que representado pela varivel CA.
Na Figura 03, pode-se verificar que os estados esto distribudos de acordo com sua
representatividade em relao produo nacional de gros. Os estados que esto mais
afastados da origem so os que melhor representam esta produo.
Na Figura 04, pode-se observar a distribuio de variveis, os produtos. Mediante
esta figura verifica-se que as variveis, que melhor representam o fator 1 em relao ao fator
2, so aquelas que esto bem prximas ao crculo unitrio. Analisando-se as duas figuras,
simultaneamente, pode-se concluir que a varivel MI a que melhor representa o primeiro
plano principal, sendo esta a mais significativa e representa o estado do Paran. Este estado
tambm representa as variveis SO, TRI e FE, tendo, estas, uma menor representatividade. A
varivel AR representada pelo estado do Rio Grande do Sul e a varivel CA pelo estado de
Minas Gerais.
Fazendo-se uma anlise dos cinco fatores nos planos principais subseqentes, o
resultado encontrado anlogo ao primeiro plano principal, ou seja, as variveis milho, trigo,
soja e feijo so as que representam a produo do estado do Paran. A varivel arroz
representa a produo do estado do Rio Grande do Sul, e a varivel caf est representando a
produo do estado de Minas Gerais, no perodo de 1995 a 2002.
10
MG
8
4
SP ES
BA
2
Fator 2: 22,70%
PR CE
RO
PE
SC
GO PB
AL
RN
SE
DF
PI
PA RJ
0 AC
AM
AP
RR
TO
MS MA
-2 MT
-4
-6 RS
-8
-10
-12
-14
-20 -18 -16 -14 -12 -10 -8 -6 -4 -2 0 2 4 6
Active
Fator 1: 54,74%
1,0
CA
CA
CA 95/96
97/98
99/00
01/02
FEFE
FE 01/02
0,5 FE97/98
95/96
99/00
Fator 2 : 22,70%
MI 01/02
MI 95/96
97/98
MI 99/00
0,0
TRI 95/96
TRI 97/98
TRI 01/02
SO
SO95/96
SO
TRI
SO 01/02
99/00
97/98
99/00
-0,5 AR
AR 95/96
97/98
AR
AR 99/00
01/02
-1,0
Em estatstica, h muitas tcnicas que podem ser aplicadas para que seja realizada a
anlise dos dados. O ideal aplicar outras tcnicas que confirmem os resultados obtidos.
Devido a este fato, realizou-se uma anlise de varincia, que vem confirmar os resultados
obtidos com as tcnicas multivariadas, ou seja, verificar se existe diferena significativa entre
estes estados que melhor representam a produo nacional de gros. J que a primeira uma
anlise confirmatria, e a segunda exploratria.
ANOVA
Fonte da
variao SQ gl MQ F valor-P F crtico
Estados 1,38035E+15 5 2,76E+14 60,16717 7,47068E-21 2,386066
Culturas 3,7946E+13 2 1,9E+13 4,135013 0,021335235 3,168246
Interaes 2,46859E+15 10 2,47E+14 53,80089 1,8184E-24 2,011181
Dentro 2,47772E+14 54 4,59E+12
2 TOTAL 4,13465E+15 71
como o trigo, precisa de regies frias para o seu cultivo. Sabe-se, tambm, que existem
variedades de sementes de trigo que so adaptadas para o seu cultivo em regies de condies
climticas no to favorveis. O mesmo ocorre com a produo de milho, feijo e outras
culturas.
4 Concluses
5 Referncias bibliogrficas
JACKSON, J.E. Principal components and factor analysis: Part II - additional topics related to
principal components. Journal of Quality Technology, v.13, n.1, jan. 1980.
177
ARTIGO 4
RESUMO: Devido ao fato de a natureza ser um sistema dinmico, torna-se importante o estudo sobre
o solo e toda a fauna que o habita, pois a mesma reflete o padro de funcionamento do ecossistema. As
coletas da fauna, umidade e temperatura foram realizadas semanalmente em uma rea do
departamento de solos da UFSM. O objetivo deste trabalho verificar a abundncia em que os
organismos so encontrados no solo e, tambm, analisar se umidade e temperatura exercem influncia
sobre a fauna edfica do mesmo. Para a anlise desses dados, obtidos durante seis meses de coletas,
recorreu-se a tcnicas estatsticas da anlise multivariada, tais como a anlise de Cluster e a anlise de
componentes principais (ACP). Essas tcnicas possibilitaram observar os grupos formados pelos
organismos (variveis), que possuem uma caracterstica em comum, isto , a abundncia em que so
encontrados no solo. Verifica-se, tambm, que as variveis (organismos) so influenciadas pelas
variveis complementares (umidade e temperatura), no decorrer de toda a anlise. Os resultados
encontrados serviro de suporte para pesquisas subseqentes, nesta rea, e tambm ajudar no manejo
do solo.
ABSTRACT: The organisms of the soil reflect the operation of the ecosystem. In that work it was
verified the influence of the temperature and humidity on them. The multivariate analysis allowed to
observe the groups formed by the organisms and to analyze the influence of the temperature and
humidity on them.
1. INTRODUO
A natureza um sistema essencialmente dinmico, onde predomina a inter-relao entre os
seres vivos e a relao destes, com o meio em que vivem. Cada fator da natureza, animal, planta e solo
influem um sobre o outro, e a modificao de um condiciona a alterao de outro.
179
No princpio o homem estudou esses fatores isoladamente, sem qualquer relao com os demais
fatores. Somente mais tarde passou a observar a relao desses, bem como as transformaes que
sofrem e as conseqncias geradas nesse processo evolutivo.
Desta maneira, preocupou-se muito com a natureza e, dentro desta, com o solo e toda a comunidade
variada que o compem, que tanto em termos quantitativos, como qualitativos so indispensveis sua
conservao e funcionamento. Segundo Lopes Assad et al (1997) o biofuncionamento do solo e o
conjunto de suas funes edficas, interagindo com fatores ambientais, so dependentes de regulaes
biolgicas das plantas, microorganismos e fauna edfica.
O conhecimento da biologia do solo, associado s informaes oriundas de todos os ramos do
conhecimento, torna-se indispensvel ao estudo de sua morfologia, o que poder nos proporcionar a
maneira mais adequada ao manejo de nossos solos, garantindo maior equilbrio com os demais
componentes biticos e abiticos.
As modificaes do clima e do manejo do solo exercem influncia direta, e indireta, sobre a fauna
edfica do solo, podendo diminuir o nmero e a diversidade dos organismos que o compem
(VARGAS e HUNGRIA 1997).
Devido importncia em analisar a influncia da temperatura e umidade do solo sobre a sua
meso e a macrofauna, realiza-se este trabalho, que tem como objetivo verificar se a temperatura e a
umidade influenciam na quantidade e diversidade de organismos existentes no mesmo.
2. METODOLOGIA
25 4,0
3,5
20
3,0
Linkage Distance
Value
15 2,5
2,0
10
1,5
5
1,0
0,5
0
IYMENOP ACARINA COLEOP. ARANAE MOLUSC. HEMIP. COLLEN.
ANNELID. QUILOP. DIP. DIPLOP. CRUSTACE ISOP.
0,0
1 2 3 4 5 6 7 8 9 10 11 12 13
Number of Eigenvalues
Figura 1: Dendograma da anlise de cluster. Figura 2: Proporo da variao explicada pela componente.
engloba a maior parte das variveis estudadas, o grupo representado pelo crculo em vermelho, da
varivel representada pelos aneldeos e o grupo do crculo em rosa, da varivel representada pelos
hymenpteros. Observa-se, ento, que os trs grupos formados so distintos, ou seja, isto significa
dizer que existe homogeneidade dentro de cada grupo e heterogeneidade entre os grupos, isto , esto
agrupados por uma caracterstica comum: maior abundncia no solo.
A definio do nmero de componentes, a serem utilizadas, feita por meio do critrio
sugerido por Cattel (1966). Este denominado de mtodo grfico e representa, graficamente, a
porcentagem de variao explicada pela componente nas ordenadas e os autovalores em ordem
decrescente nas abscissas. Esse critrio considera as componentes anteriores ao ponto de inflexo da
curva, como pode-se observar na Figura 2. O nmero de fatores a serem utilizados na anlise seis,
pois a partir do sexto fator ocorre uma estabilizao no grfico.
As Figuras 3 e 4 representam o primeiro plano principal. A Figura 3 com a distribuio da
nuvem de variveis (organismos) e duas variveis complementares, e a Figura 4 com a distribuio da
nuvem de pontos (coletas).
Projection of the variables on the factor-plane ( 1 x 2) Projection of the cases on the factor-plane ( 1 x 2)
Active and Supplementary variables Cases with sum of cosine square >= 0,00
*Supplementary variable 8
1,0 6
MOLUSC.
ANNELID. C2 C13
QUILOP. 4
0,5 DIPLOP.
Factor 2: 18,10%
2 C14
C9
C15
C11
Factor 2 : 18,10%
C12
C6
C10
*H2O C8C28
C27
CRUSTACE
COLLEN. ISOP. C7
C22
C23
C25
0 C21
C17
C19
ARANAE C26
C4C30
C24
0,0 C5
C16 C18
C29
ACARINA C3
IYMENOP -2
*Temp
C1
COLEOP.
HEMIP.
DIP. -4
-0,5
-6
-1,0 -8
-14 -12 -10 -8 -6 -4 -2 0 2 4 6
-1,0 -0,5 0,0 0,5 1,0 Active Active
Suppl. Factor 1: 33,05%
Factor 1 : 33,05%
Figura 3: Grfico da distribuio da nuvem de variveis Figura 4: Grfico da distribuio da nuvem de pontos
relao ao fator 2, mediante ACP, que as variveis que sofreram influncia da temperatura so:
Collembola, Hemptera, Coleptera, Crustcea, Acarina, Dptera, Aranae, Diplpoda, Quilpoda,
Mollusca e Anneldeo, e as que sofreram influncia da umidade so apenas duas variveis, Isptero e
Hymenptero.
A Figura 4 mostra que as variveis que melhor explicaram o fator 1 so representadas pela coleta um
(C1), sendo elas: Collembola, Hemptera, Coleptera, Crustcea e Acarina. As variveis Diplpoda,
Quilpoda, Mollusca, Anneldeo, so representadas pelas coletas dois e treze (C2 e C13). As variveis
Dptera, Aranae, Isptero e hymenptero so representadas pelas demais coletas, neste primeiro plano
principal.
4. CONCLUSES
A anlise multivariada uma ferramenta estatstica muito til, pois suas tcnicas so
capazes de mostrar, em um grupo de variveis correlacionadas, resultados independentes. Desta forma
conseguiu-se com a aplicao da tcnica da ACP, relacionar todos os fatores selecionados pelo critrio
sugerido por Cattel (1966), em relao ao fator 1 que melhor explicou a proporo de varincia
acumulada. Pode-se concluir que as variveis complementares influenciam na quantidade e
diversidade de organismos existentes no solo. Portanto conclui-se, com este trabalho, que das duas
variveis complementares, umidade e temperatura, a temperatura teve influncia em todos os planos
principais sobre as mesmas variveis, sendo estas: Collembola, Hemptera, Coleptera, Crustcea,
Acarina, Dptera, Aranae, Diplpoda, Quilpoda, Mollusca, Anneldeo, e a umiadde influenciou
apenas sobre duas variveis, Isptero e Hymenptero. As coletas apresentaram diferentes resultados
em cada plano principal, ou seja, representaram diferentes variveis.
Pelo exposto, neste trabalho, pode-se inferir que os mtodos estatsticos aplicados na rea da
biologia do solo foram pertinentes, e os resultados obtidos podem contribuir, significativamente, para
o manejo do mesmo.
5. REFERNCIAS BIBLIOGRFICAS
6 ANEXO
coluna.
Diz-se ento que A tem dimenso mxn e ser denotada por A R mxn , se as
entradas de a ij so reais.
A = [a1 , a 2 , ...., a n ]
Matriz quadrada
chamado de trao.
Simtrica
1 2 2
A = 2 3 0
2 0 4
Matriz triangular
3 1 4
A = 0 1 2
0 0 3
1 0 0
A = 2 2 0
4 0 4
Diagonal
5 0 0
A = 0 2 0
0 0 1
Identidade
Denotada por: I n .
1 0 0
1 0
I 3 = 0 1 0 e I 2 =
0 0 1 0 1
Matriz oposta
Transposio
Adio
[ ]
A soma de duas matrizes de mesma ordem, Amxn = a ij e Bmxn = bij , uma [ ]
matriz mxn, que denotaremos A + B, cujos elementos so somas dos elementos
correspondentes de A e B, isto , A + B = a ij + bij [ ]
mxn
(BOLDRINI, 1986).
187
A + B= C
1 4 2 7
A= eB=
3 5 3 6
1 + 2 4 + 7 3 11
A+B= C =
3 + 3 5 + 6 6 11
Subtrao
1 4 2 7 1 4 2 7 1 2 4 7 1 3
3 5 3 6 = 3 5 + 3 6 = 3 3 5 6 = 0 1
Seja A = a ij [ ]
nxm
e K um nmero real, ento a nova matriz ser definida por:
[ ]
k.A = ka ij
nxm
.
Multiplicao de matrizes
[ ]
C = cij
mxn
, onde cada elemento c ij obtido mediante a soma dos produtos dos
188
a11 a12
b b b
A3 X 2 = a21 a22 e B2 x 3 = 11 12 13
a31 a32 b21 b22 b23
A 2 x 3 .B3x 3 = C 2 x 3
4 3 1
2 2 8 2 0 1 = 2 .4 + 2 .2 + 8 .1 2 .3 + 2 .0 + 8 .2 2 .1 + 2 .1 + 8 .0
1 3 3 1.4 + 3.2 + (3).1 1.3 + 3.0 + (3).2 1.1 + 3.1 + (3).0 =
1 2 0
20 22 4
C 2 x3 =
7 3 4
A associao de duas matrizes associativa, mas no comutativa.
Amxp .( B pxn .Cmxn ) = ( Amxp .B pxn ).Cmxn
Matriz Inversa
A 1 .
Conforme Valentin (2000) uma matriz s inversvel se for quadrada, mas
nem toda a matriz quadrada pode ser inversvel. Uma matriz que no admite
inversa chamada matriz singular.
Obs: Se A 1 existe A dita no singular.
189
Propriedades:
i ) A 1 . A = A. A 1 = I
1
ii ) A 1 =
A
iii ) A t
1
[ ]
= A 1
t
Determinante
onde Aij a submatriz da inicial, na qual a i-sima linha e a j-sima coluna foram
retiradas.
Escreve-se determinante de A pela expresso: A = det .A = A
A 1 = [2] det A 1 = 2 ou 2 = 2
a 11 a 12
Dada a matriz A = , de ordem 2, por definio, tem-se que o
a 21 a 22
determinante associado a essa matriz, ou seja, o determinante de 2 ordem dado
por:
190
a 11 a 12
det A = = a 11 a 22 - a 12 a 21 ,
a 21 a 22
assim:
det A = a 11 a 22 - a 12 a 21 ,
1 0
sendo A = , ento:
2 5
1 0
det A = = 1.5 - 2.0 = 5 - 0 = 5,
2 5
logo det A = 5
Deve-se observar que o determinante de uma matriz de ordem 2 dado
pela diferena entre o produto dos elementos da diagonal principal e o produto dos
elementos da diagonal secundria.
Propriedades:
i) Se todos os elementos de uma linha ou coluna de uma matriz A so nulos, ento
det A = 0.
ii) det A = det A t
iii) Trocando a posio de duas linhas (ou colunas) o determinante troca de sinal.
iv) O determinante de uma matriz que tem duas linhas (ou colunas) iguais ou
proporcionais zero. Em geral,
v) det (A+B) det (A) + det (B).
vi) det (A.B) = det (A) + det (B).
vii) Se multiplicar uma linha da matriz por uma constante, o determinante fica
multiplicado por esta constante
viii) Se A singular ento o det A = 0
Se A no singular ento o det A 0
a c
A matriz A = singular se, e s se, det A = 0
b d
O determinante de uma matriz pode ser calculado de duas formas pelo
Teorema de Laplace, que serve para calcular o determinante de matrizes de
qualquer ordem ou pela Regra de Sarrus, que serve para calcular o determinante de
matrizes de ordem 3.
Para aplicar o Teorema de Laplace faz-se necessrio citar algumas
definies de clculos intermedirios:
191
associado matriz obtida de A quando elimina-se a linha e a coluna que passam por
a ij .
a11 a12
a) Dada a matriz A = , de ordem 2, determinar o menor complementar
a 21 a 22
MC 12 = a 21 = a 21
MC 21 = a12 = a12
MC 22 = a11 = a11
1 0 2
b) Dada a matriz A = 2 3 0 , de ordem 3 determina-se:
1 1 3
3 0
MC 11 = 3.3 - (1.0)= 9
1 3
2 0
MC 12 = - 2.3 - (-1.0) = - 6
1 3
2 3
MC 13 = - 2.1 - (-1.3) = 1
1 1
9 6 1
M = 2 5 1
0 4 3
a11 a12
Dada A = , os cofatores relativos a todos os elementos da matriz
a 21 a 22
A so:
1 + 1
2
A 11 = (-1) . a 22 = (-1) . a 22 = + a 22
1 + 2
3
A 12 = (-1) . a 21 = (-1) . a 21 = - a 21
2 + 2
4
A 22 = (-1) . a 11 = (-1) . a 11 = + a 11
2 + 1
3
A 21 = (-1) . a 12 = (-1) . a 12 = - a 12
= a11.a22 .a33 . + a12 .a23 .a31. + a21.a32 .a13 . a13 .a23 .a31. a12 .a21.a33 . a23 .a32 .a11
= = a11.(a22 .a33 . a23 .a32 .) + a12 (a21.a33 . a23 .a31.) + a13 .(a21.a32 . a22 .a31.),
Pode-se escrever:
a22 a23 a a a a
det A = a11 a12 21 23 a13 21 22 ,
a32 a33 a31 a33 a31 a32
193
Ou ainda det A = a11 A11 a12 A12 + a13 A13 , onde Aij a submatriz obtida
det A = a 11 11 + a 12 12 + a 13 13 .
Para matrizes de ordem n, tem-se:
n
det(A) n = a 11 11 + a 12 12 + a 13 13 + ... + a 1n in = a ij . ij = a ij (1) i + j A ij .
j=1
Com estes cofatores pode-se formar uma nova matriz A , denominada matriz
dos cofatores de A.
[ ], no qual ij = (1) i+ j A ij .
A = A ij
1 0 2
D 1 = 0 3 2
1 5 5
1 + 1 3 2 0 2 0 2
D 1 = 1(-1) + 0(1) 2 + 1
+ 1(1) 3 + 1
5 5 5 5 3 2
D 1 = 11
2) Multiplicam-se :
194
1 4 1
2 , determine a matriz inversa de A, se existir.
Sendo A = 2 5
3 2 3
1 4 1 | 1 4
det A = 2 5 2 | 2 5
3 2 3 | 3 2
det A = 15 + 24 4 15 4 + 24
det A = 63 23
det A = 40
1 4 1
A = 2 5 2
3 2 3
5 2 2 2
MC11 = = 15 4 = 11 MC12 = = 6 6 = 12
2 3 3 3
2 5 4 1
MC13 = = 4 15 = 19 MC21 = = 12 2 = 10
3 2 2 3
1 1 1 4
MC22 = =33=0 MC23 = = 2 12 = 10
3 3 3 2
4 1 1 1
MC31 = =85=3 MC32 = =2+2=4
5 2 2 2
195
1 4
MC33 = = 5 + 8 = 13
2 5
11 12 19
M = 10 0 10
3 4 13
11 12 19
M = 10 0 10
3 4 13
11 12 19
C = 10 0 10
3 4 13
Matriz adjunta
11 10 3
C t
= 12 0 4
19 10 13
Matriz inversa
11 10 3
1
A 1
= 12 0 4
40
19 10 13
0,275 0,25 0,075
A 1 = 0,3 0 0,1
0,475 0,25 0,325
196
A 1 . A = I
1 0 0
I = 0 1 0
0 0 1
Sistema linear
M M M M M
am1 x1 + am 2 x2 + am3 x3 +.... + amn xn = bm
197
ou seja, X = A 1 .B .
sistema.
Matriz Incompleta
2 x + 2 y + z = 3 , a matriz incompleta :
x + 5y + z = 0
3 3 1
A = 2 2 1
1 5 1
Matriz Completa
3x + 3 y z = 4
2 x + 2 y + z = 3 ,
x + 5y + z = 0
a matriz completa :
3 3 1 4
B = 2 2 1 3
1 5 1 0
x + y = 10
, neste sistema nenhum par ordenado satisfaz simultaneamente as
x y = 10
equaes.
Dessa forma o sistema impossvel, pois no tem soluo.
Sistema normal
x y =1
Temos: m = 2, n = 2 m = n (I)
200
Regra de cramer
independentes, tem-se:
1 3
Dy = = 7 - 9 = - 2.
3 7
20 5 2 1
Assim: x = D x = = y = Dy = =
D 8 2 D 8 4
5 1
Logo, ( x, y ) = , a soluo do sistema dado.
2 4
x + 2y z = 1
Encontre as solues do sistema 2 x + y + 4 z = 5
3x + 3 y + z = 2
a) pela forma matricial, X = A1.B
1 2 1 x 1
2 1 4 y = 5
3 3 1 z 2
1 2 1
A = 2 1 4
3 3 1
Determinante de A
1 2 1 | 1 2
det A = 2 1 4 | 2 1
3 3 1 | 3 3
det A = 1 + 24 + 6 + 3 12 + 4 = 0
det A = 26
2 1 2 1
MC13 = = 6 3 = 9 MC21 = =2+3=5
3 3 3 1
1 1 1 2
MC22 = =1+ 3 = 4 MC23 = = 3 6 = 3
3 1 3 3
2 1 1 1
MC31 = =8+1= 9 MC32 = =42=2
1 4 2 4
1 2
MC33 = =1+ 4 = 5
2 1
11 14 9
M = 5 4 3
9 2 5
202
A33 = ( 1) 3 + 3 . 5 = ( 1) 6 . 5 = 5
11 14 9 11 5 9 11 5 9
C = 5 4 3 C = 14 4 2
1
t 1
A = 14 4 2
26
9 2 5 9 3 5 9 3 5
X = A1.B
1 2 1 | 1 2
A = 2 1 4 | 2 1
3 3 1 | 3 3
det D = 1 + 24 + 6 + 3 12 + 4 = 0
det D = 26.
Para calcular D x , substitui-se a primeira coluna de A pelo vetor B:
203
1 2 1 | 1 2
Dx = 5 1 4 | 5 1
2 3 1 | 2 3
D x = 1 + 16 15 + 2 12 10
D x = -18
Para calcular D y , substitui-se a segunda coluna de A pelo vetor B:
1 1 1 | 1 1
Dy = 2 5 4 | 2 5
3 2 1 | 3 2
D y = 5 + 12 + 4 + 15 8 + 2
D y = 30.
1 2 1 | 1 2
Dz = 2 1 5 | 2 1
3 3 2 | 3 3
D z = 2 + 30 6 3 15 + 8
D z = 16.
As solues encontradas para o sistema so:
Dx 18
x = = = - 0,69
D 26
Dy 30
y= = 1,15
D 26
Dz 16
z= = = 0,61.
D 26
Como se pode observar os dois mtodos so equivalentes, isto , possuem
as mesmas solues.
204
j {1, p} .
Conforme Valentin esses dados podem ser representados de duas maneiras
diferentes:
a) no espao das coletas (Figura 84a), plotando os pontos representativos de cada
espcie a partir dos valores de a ij num sistema de dois eixos-coletas ortogonais A1
e A2 ;
b) no espao espcie (Figura 84b ), plotando os pontos representativos de cada
coleta a partir dos valores de a ij num sistema de trs eixos-espcie ortogonais
Vg 1 , Vg 2 e Vg 3 .
Vg 2
A2
a 22
a32 Vg 2 A2
a 22 Vg 3
a12
a31
(a)
a21
Vg 1
a11
A1
Vg 3
a31
a32
a a12
A1
(b)
a11
Vg 1
Figura 84: Representao vetorial das espcies nos espaos das estaes (a) e das estaes no
espao das espcies (b)
A2
A2,
2a 22
a 22
a 21 2a 21 A1
Figura 85: Multiplicao de um vetor por um escalar.
vetores A1 a11 , a12 e A2 a21 ,a22 , o resultado ser um vetor A3 , cujos elementos sero
A2
(a12 + a 22 ) Vg 3
a 22 Vg 2
a12 Vg 1
A1
a21 a11 (a12 + a 22 )
O produto escalar entre dois vetores, neste exemplo das espcies vegetais
representado pelos vetores Vg 1 x11 , x12 e Vg 2 x 21 , x22 . O produto escalar desses dois
vetores o nmero, que obtido atravs da soma dos produtos dos respectivos
elementos. J o produto escalar de um vetor por ele mesmo corresponde ao seu
comprimento, ou seja, a sua norma.
Em anlises que englobam diversas variveis e a representao vetorial
simultnea exige que todos os vetores representativos dessas variveis tenham
Pitgoras. Existe um caso particular, no qual a norma do vetor igual a 1, sendo que
nestas circunstncias os elementos respeitam a igualdade cos 2 + sen 2 = 1 , como
pode-se observar na Figura 87.
A2
r
a2 u
a1 A1
Figura 87: Vetor U de norma 1
A1 = (a11 m1 ) 2 + (a12 m1 ) 2
Propriedade:
Dois vetores so ortogonais se o produto interno entre eles zero.
r
A
x A2
D AB
xB2
x A1 x B1 X1
Figura 88: Distncia euclidiana D AB entre dois vetores A e B.
Fonte: Valentin (2000).
m
D A, B = (x
j =1
A, j x B, j )
e um vetor X no nulo
Seja A uma matriz quadrada, se existe um escalar
tal que:
Ax = x,
210
caracterstica de A, isto :
I) = 0
det ( A
O conjunto de todos os autovalores chamado de espectro, decomposio
espectral, entre outros nomes.
um autovalor, qualquer soluo no trivial de (A -
Se I)X = 0 um
.
autovalor de A correspondente a
Propriedades:
Se a matriz no singular, ento todos os seus autovalores so diferentes de
zero.
Se a matriz simtrica, ento todos os seus autovalores so nmeros reais.
Os autovalores de uma matriz definida positiva so todos positivos.
4 5
Seja A= a matriz de associao entre duas variveis.
2 3
Transformar-se- numa matriz diagonal D, sendo que os termos da diagonal
principal correspondem aos autovalores da matriz A, e que para cada autovalor,
existe um autovetor associado, neste caso os autovalores so representados por
x1 e x 2 . Encontre os autovalores e autovetores da equao matricial:
4 5 x1 x1
2 3. x = x
2 2
4 x1 5 x 2 =
x ( 4 x x ) 5x = 0 ( 4 ) x 5x = 0
1
1 1 2
1 2
2 x1 3 x 2 = x 2 2 x1 (3 x 2 x 2 ) = 0 2 x1 (3 + ) x 2 = 0
Pode-se observar que no sistema x1 = x 2 = 0 , isto , admite soluo nica,
no sendo este resultado satisfatrio para o trabalho. Para se obter outras solues
deve-se fazer o determinante da matriz dos coeficientes igual a 0:
4 5
=0
2 )
(3 +
) (3 +
(4 - ) + 10 = 0
+ 3
-12 4 +
2 + 10 = 0
211
2 -
- 2 = 0 esta equao denominada de polinmio caracterstico.
Os autovalores (razes caractersticas) so obtidos da equao:
= b
(b) 2 4(a)(c)
2(a)
=1
( 1) 2 4(1)( 2)
( 2)(1)
=1 9
=13
2 2
= -1
1
= 2.
2
-1 + 2 = 1 = trao da matriz A.
).(
( ) ....(
) = determinante da matriz A.
1 2 p
(-1).(2) = -2
Deve-se observar tambm que a adio de duas razes caractersticas 1
que nada mais que o segundo termo da equao.
Com a diagonalizao da matriz A obteve-se a matriz diagonal
1 0
D= , das razes caractersticas.
0 2
= -1 dado pela equao
O clculo dos autovetores associados a 1
4 + 1 5 x1 0
2 3 + 1 x = 0
2
212
5 x1 5 x 2 = 0
2 x1 2 x 2 = 0
ou ainda:
( 4
) x 5x = 0
1 2
, substituindo o autovalor pelo valor encontrado no mesmo
2
1 x ( 3 + ) x 2 = 0
tem-se:
(4 (1)) x1 5 x 2 = 0 5 x1 5 x 2 = 0
, ou seja, os sistemas so equivalentes.
2 x1 (3 + (1)) x 2 = 0 2 x1 2 x 2 = 0
I = 0
Este sistema de equaes indeterminado, em virtude de S
5 5
=0
2 2
S 2 I X 2 = 0
4 5 1 0 x1 0
2 3 (2) 0 1 x = 0
2
4 2 5 x1 0
=
2
3 2 x 2 0
2 x1 5 x 2 = 0
2 x1 5 x 2 = 0
ou ainda:
213
( 4 ) x 5x = 0
1 2
, substituindo o autovalor pelo valor encontrado no mesmo
2 x1 (3 + ) x 2 = 0
tem-se:
(4 2) x1 5 x 2 = 0 2 x1 5 x 2 = 0
, ou seja, os sistemas so equivalentes.
2 x1 (3 + 2) x 2 = 0 2 x1 5 x 2 = 0
De forma anloga ao primeiro autovetor, atribui-se um valor para ( x 2 = 1 ),
logo:
2 x1 - 5(1) = 0
2 x1 - 5 = 0
2 x1 = 5
x1 = 2,5, logo o segundo autovetor :
r 2,5
X2 =
1
1 2,5
Dessa forma a matriz dos autovetores X = .
1 1
214
7 BIBLIOGRAFIA
CATTEL, R. B. The scree test for the number of factors. In: ---. Multivariate
behavior research. v.1, p. 245-276, 1966.