Você está na página 1de 25

Universidade do Minho

Escola de Ciências
Mestrado em Estatística para Ciência de Dados

Análise Discriminante
Análise de Componentes Principais
Análise de Agrupamento

Trabalho de Análise Multivariada

Ana Rita Pimenta


Gonçalo Peixoto
Valentina Lirio

Guimarães - abril de 2023


Conteúdo
1 Introdução 3

2 Análise Exploratória dos Dados 4


2.1 Correlação entre as variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Análise Discriminante 8

4 Análise de Componentes Principais 10

5 Análise de Agrupamento 18
5.1 Agrupamento hierárquico - Agrupamento aglomerativo . . . . . . . . . . . . . . . 19
5.2 Agrupamento não hierárquico - k-means . . . . . . . . . . . . . . . . . . . . . . . 20

6 Conclusão 21

A Apêndice 24

2
1 Introdução
O objetivo deste trabalho será aplicar, a partir de uma base de dados, métodos de análise
de dados lecionados na unidade curricular de Análise Estatística Multivariada, tais como: uma
Análise Discriminante (AD), uma Análise de Componentes Principais (ACP) e uma
Análise de Agrupamento (Clusters) (AA), com o auxílio do software Rstudio, retirando as
suas respetivas conclusões.
A base de dados selecionada encontra-se disponível no Rstudio na biblioteca factoextra de-
signada por decathlon2, apresentando as classificações correspondentes às provas de decatlo rea-
lizadas nos Jogos Olímpicos de Verão de 2004 e no Décastar de 2004.
Os Jogos Olímpicos e o Décastar são dois eventos desportivos internacionais. Os Jogos Olím-
picos são realizados a cada quatro anos, onde reúne atletas de vários países para competirem
em diversas modalidades desportivas. Nestes jogos estiveram presentes 201 Comitês Olímpicos
Nacionais e 10625 atletas (4329 mulheres e 6296 homens) que participaram em 301 eventos. O
Décastar é uma competição internacional de atletismo realizada anualmente em Talence, França.
e tem a duração de dois dias. Um dos eventos realizado em ambas as competições foi o decatlo,
uma modalidade que, conforme o nome indica, consiste em 10 provas diferentes realizados ao longo
de dois dias. O objetivo do decatlo é determinar o atleta mais completo, que deve ser capaz de
demonstrar habilidades em diversas áreas do atletismo (Wikipedia, 2022, 2023).
As 10 provas do decatlo são:

1. 100 metros

2. Salto em comprimento

3. Lançamento de peso

4. Salto em altura

5. 400 metros

6. 110 metros com barreiras

7. Lançamento de disco

8. Salto com vara

9. Lançamento de dardo

10. 1500 metros

3
Os atletas recebem pontos com base no seu desempenho em cada prova, e o vencedor é o que
acumula o maior número de pontos no final das dez provas. O decatlo é considerado uma das
modalidades mais exigentes e desafiadoras do atletismo.
A base de dados em estudo é constituída por 27 observações (atletas) e 13 variáveis cara-
terizadas na Tabela 1. Fez-se uma renomeação das variáveis para facilitar a sua interpretação.

Tabela 1: Apresentação das variáveis


Variáveis Mudança de Nome Descrição das Variáveis Tipo de Variável
X100m X100m Tempo de corrida de 100 metros Quantitativa
Long.jump SaltCom Distância do Salto em Comprimento Quantitativa
Shot.put LanPeso Distância do Lançamento do Peso Quantitativa
High.jump SaltAlt Altura do Salto em Altura Quantitativa
X400m X400m Tempo de corrida de 400 metros Quantitativa
X110m.hurdle X100mBa Tempo de corrida 110 metros barreiras Quantitativa
Discus LanDis Distância do Lançamento de Disco Quantitativa
Pole.vault SaltVara Altura do Salto com Vara Quantitativa
Javeline LancDar Distância do Lançamento de Dardo Quantitativa
X1500m X1500m Tempo de corrida de 1500 metros Quantitativa
Rank Posi Posição de cada atleta Quantitativa
Points Pontos Número de Pontos de cada atleta Quantitativa
Competition Compet Nome da Competição Qualitativa

Categoria das variáveis qualitativas:


1: Decastar
2: Jogos Olímpicos
Como se trata de dois eventos distintos, os nomes dos atletas que participaram nos Jogos
de Decastar estão escritos em letras maiúsculas. É importante salientar que há possibilidade do
mesmo atleta participar em ambos os eventos.

2 Análise Exploratória dos Dados


Primeiramente, para melhor análise da base de dados, é feita uma análise exploratória dos dados
para compreender quer a distribuição das variáveis quer a relação entre as mesmas. Como dito
anteriormente, cada indivíduo é caraterizado por 13 variáveis, segundo as quais serão estudados.
Este estudo engloba um total de 27 atletas, entre os quais 13 participaram nos Jogos de
Décastar e os restantes 14 nos Jogos Olímpicos, como é possível observar na Figura 1.

4
Figura 1: Gráfico circular da variável Compet

Para melhorar a análise, na Tabela 2, estão representados as medidas de localização das variá-
veis quantitativas a utilizar:

Tabela 2: Medidas de localização das variáveis quantitativas


Variável Média Mediana Máximo Mínimo
X100m 10.99 10.97 11.64 10.44
SaltCom 7.365 7.31 7.96 6.80
LanPeso 14.54 14.57 16.36 12.68
SaltAlt 1.998 1.98 2.15 1.86
X400m 49.31 49.20 51.16 46.81
X100mBa 14.50 14.34 15.67 13.97
LanDis 44.85 44.72 51.65 37.92
SaltVara 4.836 4.90 5.40 4.40
LancDar 58.32 57.19 70.62 50.31
X1500m 278.5 278.10 301.50 262.1

Como os indivíduos estão identificados pelas provas em que obtiveram os resultados descritos,
pode-se assumir que os dados apresentam duas populações distintas, totalmente independentes, e,
por sua vez, é possível comparar os resultados entre eles. Para isso, realiza-se os seguintes gráficos
(Figura 2):

5
(a) 100 metros (b) Salto em Comprimento (c) Lançamento do Peso

(d) Salto em Altura (e) 400 metros (f) 100 metros Barreiras

(g) Lançamento do Disco (h) Salto com Vara (i) Lançamento de Dardo

(j) 1500 metros

Figura 2: Boxplot das variáveis quantitativas do estudo

Os gráficos sugerem uma variabilidade de rendimento nas provas do decatlo, não sendo evidente

6
em qual das provas é que houve um melhor rendimento dos atletas. Por exemplo, na prova dos 100
metros é notório que a performance foi melhor nos Jogos de Décastar, enquanto no lançamento
do Peso, os melhores resultados foram obtidos nos Jogos Olímpicos.

2.1 Correlação entre as variáveis


Para análise futura, é necessário averiguar qual a relação entre as variáveis. Para isso, recorre-se ao
coeficiente de correlação, ρ, que permite avaliar o grau de associação linear entre duas variáveis, o
sinal do mesmo indica a direção da associação e o valor absoluto mede a intensidade da associação.
O ρ varia entre [−1, 1], então, quando:

• ρ > 0: a relação linear é positiva;

• ρ = 0: não existe relação linear;

• ρ < 0: a relação linear é negativa;

• ρ = 1: a relação linear é positiva e perfeita;

• ρ = −1: a relação linear é negativa e perfeita.

Para realizar a avaliação da correlação entre as variáveis, produziu-se o gráfico visualizado


na Figura 3, em que à esquerda das variáveis tem-se os valores da correlação entre elas e à
direita, o grau de correlação por cores, sendo em vermelho correlações lineares negativas e em azul
correlações lineares positivas.

Figura 3: Gráfico da correlação linear entre as variáveis

7
A partir da análise da Figura 3, é possível concluir que existem variadíssimas correlações
entre as variáveis quantitativas em estudo. Consegue-se concluir que as variáveis que, entre elas,
apresentam uma maior correlação são X100m e SaltCom (−0.74) e, ainda, LanPeso e LanDisc
(0.72). Enquanto as correlações mais fracas são entre variáveis X100m e SaltVara (0.01), LanPeso
e X1500m (0.01) e LancDar e X1500m (0.04). Esperavam-se estes resultados, uma vez que
a fisionomia de cada atleta influencia o rendimento de cada prova, por exemplo, os atletas do
lançamento do peso e do lançamento do disco apresentam uma estrutura mais robusta que os
atletas de 1500 metros corrida devido à necessidade de força nos membros superiores.

3 Análise Discriminante
A Análise Discriminante (AD) é uma técnica da estatística multivariada utilizada para
discriminar e classificar objetos, proposta por Sir Ronald Fisher em 1936, a princípio para duas
classes e, em 1948, C. R. Rao propôs uma generalização para múltiplas classes. (Russo, 2022)
É uma técnica da estatística multivariada que estuda a separação de objetos de uma população
em duas ou mais classes, conhecidas à priori, e classifica o novo objeto como pertencente ao grupo
com o perfil mais semelhante. São determinadas combinações lineares das variáveis quantitativas
iniciais designadas por funções discriminantes. E, ainda, a variável dependente é qualitativa.
Para utilizar este método, os dados têm que seguir vários pressupostos, tais como: (Gonçalves,
2023)

• Deve existir 2 ou mais grupos;

• Cada grupo deve ter, no mínimo, 2 indivíduos

• A amostra deve seguir uma distribuição normal multivariada;

• Dentro dos grupos estabelecidos a variabilidade deve ser idêntica, ou seja, as matrizes de
covariância devem ser iguais;

• Nenhuma variável quantitativa inicial deve ser combinação linear das restantes;

• O número de variáveis quantitativas iniciais deve ser inferior à dimensão da amostra sub-
traída de 2;

• As funções discriminantes a definir devem ser independentes e o seu número deve ser dado
pelo mínimo de número de variáveis e o número de grupos subtraído de 1.

Como é previsível, ter uma amostra que satisfaça os pressupostos em simultâneo torna-se com-
plicado. Ao realizar um teste para averiguar se os dados da amostra seguem uma distribuição

8
normal multivariada (mshapiro.test), conclui-se que, a 95% de confiança, não segue uma distribui-
ção normal multivariada, visto que o valor de prova é inferior a 0.05. Mas, para efeitos meramente
representativos, será aplicada uma análise discriminante.
A base de dados decatlhon2 apresenta uma variável qualitativa, Compet, variável essa que,
como visto anteriormente, apresenta dois grupos: atletas que participaram nos Jogos de Décastar
e os que participaram nos Jogos Olímpicos. Ao efetuar a analise pretendida, obtém-se uma única
função discriminante. Considerou-se utilizar a variável Posi como variável resposta, mas, após
agrupar os atletas, cada grupo apresentava dois elementos, rejeitando esta hipótese.
Após uma breve reflexão, decidiu-se criar uma variável qualitativa, Grupos, em função dos
pontos obtidos pelos atletas no final da competição, Pontos, criando 4 grupos:

Tabela 3: Variável Grupos


Grupos Caraterística Tamanho
Grupo 1 atletas com pontuação menor que 8000 7
Grupo 2 atletas com pontuação entre 8001 e 8100 8
Grupo 3 atletas com pontuação entre 8101 e 8250 6
Grupo 4 atletas com pontuação superior a 8250 6

Posteriormente, aplicou-se a respetiva análise discriminante, utilizando como a variável depen-


dente a Grupos e como variáveis explicativas todas as variáveis quantitativas presentes na base
de dados. Obteve-se, assim, três funções discriminantes denominadas e constituídas da seguinte
forma:

• LD1 = −4.37X1 +1.09X2 +1.30X3 +1.12X4 −0.56X5 +1.29X6 +0.08X7 +0.55X8 +0.03X9 −
0.04X10

• LD2 = −X1 +2.82X2 −0.57X3 −2.39X4 −0.09X5 +2.72X6 +0.16X7 −2.07X8 −0.07X9 −0.03X10

• LD3 = 3.2X1 −0.5X2 +1.4X3 −3.14X4 −0.59X5 −0.05X6 −0.16X7 −2.8X8 +0.001X9 −0.03X10

em que cada uma apresenta a sua respetiva proporção que explica a variabilidade dos dados:
LD1 = 93.4%, LD2 = 4.38% e LD3 = 2.58%. Como LD1 e LD2 explicam mais de 95% da
variabilidade dos dados, é possível ignorar a LD3 .
A partir das funções discriminantes obtidas pode-se afirmar quais contribuem para a classifi-
cação das observações. Por exemplo, pelos resultados, na LD1 a variável que mais contribui para
explicar a variável resposta é a X100m, enquanto na LD2 , as variáveis Saltcom, SaltAlt, X100mBa
e SaltVara são as que melhor explicam a variável resposta.
Por vezes, há erros na classificação de novos objetos baseada na AD efectuada. Nesta situação,
a exatidão para prever em que grupo um novo atleta com novas marcas é, aproximadamente,
85.2%.

9
Com isto, constrói-se o seguinte gráfico:

Figura 4: Diagrama de dispersão dos dados

A partir da análise do gráfico (Figura 4) observou-se que valores negativos e baixos correspon-
dem, tipicamente, aos atletas do Grupo 1. Os valores negativos próximos de zero vão corresponder
aos atletas do Grupo 2. Em relação aos atletas Grupo 3 os seus valores encontram-se espalha-
dos pelos valores positivos e negativos próximos de zero. Por ultimo, os valores positivos e altos
correspondem aos atletas do Grupo 4.

4 Análise de Componentes Principais


A Análise de Componentes Principais (ACP), criada por Pearson e Hotelling, é um
método multivariado utilizado para reduzir o número de variáveis em estudo. O processo per-
mite transformar um conjunto de variáveis iniciais correlacionadas entre si, num novo conjunto
de variáveis, independentes entre si, a partir de combinações lineares, tentando assegurar sem-
pre uma variabilidade não igual mas próxima da variabilidade inicial. As variáveis obtidas pelo
método denominam-se por componentes principais (Viccini et al., 2018). Esta análise é so-
mente utilizada quando as variáveis apresentam uma relação linear entre si e são classificadas
como quantitativas.
Para obter as CP, é possível partir da matriz de covariâncias ou da matriz de correlações, sendo
importante definir qual a utilizar. Esta decisão depende da natureza das medidas das variáveis,
ou seja, quando apresentam várias unidades de medida e uma variabilidade significativa, opta-se

10
por iniciar o estudo a partir de uma matriz de correlações. Em relação às variáveis utilizadas,
estas apresentam diferentes medidas e, consequentemente, partir-se-á da matriz de correlações.
Primeiramente, é verificada a correlação simples e parcial entre as variáveis. Para isso, calcula-
se a estatística de Kaiser-Meyer-Olkin (KMO) ou aplica-se um teste de esfericidade de
Bartlett.
A estatística de Kaiser-Meyer-Olkin (KMO) varia entre 0 e 1 e quanto mais próximo de 1
mais correlacionadas. Após o seu calculo obteve-se 0.62, sendo este resultado considerado razoável.
O teste de esfericidade de Bartlett tem como hipótese nula a igualdade da matriz das
correlações e da matriz identidade. A estatística de teste segue distribuição Qui-Quadrado. Ao
aplicar o teste, a um nível de confiança de 95%, rejeitou-se a hipótese nula, uma vez que, o valor
de prova é inferior a 0.05, ou seja, as variáveis são correlacionadas e, assim, é possível proceder a
uma análise de componentes principais.
O próximo passo é averiguar quantas componentes serão utilizadas na análise. Para isto,
recorre-se ao gráfico Scree Plot (Figura 5) e aos dados registados na Tabela 4.

Figura 5: Percentagem da variância explicada por cada componente principal

11
Tabela 4: Percentagem da variância explicada por cada componente principal e seus respectivos
valores próprios
Valores próprios Percentagem da variância Percentagem da variância acumulada
PC1 3.750 37.500 37.500
PC2 1.745 17.452 54.951
PC3 1.518 15.178 70.130
PC4 1.032 10.322 80.452
PC5 0.618 6.178 86.630
PC6 0.428 4.283 90.913
PC7 0.326 3.259 94.172
PC8 0.279 2.794 96.966
PC9 0.191 1.911 98.877
PC10 0.112 1.123 100.000

Existem vários critérios para determinar o número de CP a reter. A partir da análise do gráfico
da Figura 5, conclui-se que as 4 primeiros componentes são as maiores contribuidoras, uma vez
que, o último ponto onde ocorre a maior mudança brusca no declive da linha é o 4. Este facto é
corroborado pelos valores registados na Tabela 4, na qual se observa que, somente os 4 primeiros,
apresentam valores próprios maiores que 1, critério de Kaiser (Kaiser, 1958), o que indicam que
estas mesmas parcelas são suficientes para representar a variação total. Portanto, opta-se por
utilizar 4 componentes principais, onde as quais são capazes de explicar 80.45% da variabilidade
total.
A Tabela 5 apresenta a matriz dos pesos e comunalidades das CP retidas.

Tabela 5: Matriz dos pesos e comunalidades das CP retidas


Componentes principais retidas Comunalidades
Variáveis
1 2 3 4 Extração
X100m -0.819 0.343 0.101 0.101 0.809
SaltCom 0.759 -0.381 -0.006 -0.185 0.755
LanPeso 0.715 0.282 0.474 0.036 0.817
SaltAlt 0.608 0.611 0.005 0.071 0.748
X400m -0.644 0.148 0.516 0.270 0.776
X100mBa -0.716 0.298 0.416 -0.160 0.800
LanDis 0.717 0.204 0.270 0.398 0.787
SaltVara -0.221 -0.738 0.403 -0.252 0.819
LancDar 0.355 0.098 0.695 -0.486 0.855
X1500m 0.070 -0.568 0.353 0.652 0.877

A primeira CP, com 37.50% da variância explicada, é caracterizada por pesos elevados em 6,
X100m, SaltCom, LanPeso, X400m, X100mBa e LanDisc, das 10 variáveis em estudo. A segunda
CP, com 17.45% da variância explicada, tem pesos elevados para 2 variáveis, SaltAlt e SaltVara. A
terceira CP, com 15.18% da variância explicada, tem peso elevado para apenas 1 variável, LancDar.

12
E, por fim, a quarta CP,com 10.32% da variância explicada, também tem apenas peso elevado
para 1 variável, X1500m. Esta informação está apresentada em vermelho na Tabela 5.
Na mesma tabela, encontra-se a coluna da Comunalidade, isto é, a soma dos quadrados dos
pesos para cada variável. É interpretada como a proporção da variância de cada variável explicada
pelas CP retidas. Os resultados indiciam uma pequena perda de informação na generalidade, mas
consegue-se afirmar que, aquando da transformação das 10 variáveis para 4 CP, as variáveis SaltAlt
e X1500m foram as que perderam mais e menos informação, respetivamente.
Em seguida, é realizado um gráfico Biplot (Figura 6) que representa graficamente os dados
multivariados com aplicações na ACP e representa, de forma conjunta, os indivíduos e as variáveis
do estudo. Optou-se por 3 cenários envolvendo CP1 que é a variável com maior explicação da
variabilidade total, variando CP2 , CP3 e CP4 , não descartando as restantes combinações das
componentes.

13
(a) CP1 vs CP2

(b) CP1 vs CP3

(c) CP1 vs CP4

Figura 6: Biplots da CP1 vs CP2, CP1 vs CP3 e CP1 vs CP4 para todas as variáveis

14
A partir da figura 6 pode-se retirar as seguintes conclusões:

• Figura 6(a):

– As variáveis X100m, X100mBa e X400m estão relacionadas negativamente com a CP1 ,


enquanto LanPeso, LanDisc e LanDar apresentam uma relação positiva. Quanto à CP2 ,
as variáveis SaltVara e X1500m demonstram uma associação negativa. As restantes
variáveis apresentam relações pelas duas CP .
– Em relação aos atletas mais associados as variáveis LanPeso, LanDisc, LanDar e SaltAlt
são Sabrle, Karpov, Macey e Bernard. Os atletas Clay e Warners estão mais associados
com a variável SaltCom. O atleta CLAY está mais relacionado com a variável X1500m.
Os atletas Nool e Drews estão mais associados com a variável SaltVara. As variáveis
X100m, X100mBa estão mais associadas aos atletas NOOL e MARTINEAU e a variável
X400m com o atleta BARRAS.

• Figura 6(b):

– As relações entre as variáveis e a CP3 são todas positivas, exceto a variável SaltCom.
As variáveis X1500m e LancDar apresentam uma maior associação, positiva, com esta
componente. As variáveis SaltAlt e SaltCom apresentam uma particularidade, visto que
a relação entre as mesmas e a CP3 é praticamente nula, o que se conclui que há uma
grande associação positiva com a CP1 . A X100m relaciona-se, também, fortemente
com a CP1 .
– Os atletas Clay e Sebrle estão mais associados as variáveis LanDar, LanPeso e LanDis.
O atleta Macey está mais associado as variáveis SaltAlt e SaltCom. O atleta SEBRLE
está mais associado a variável X1500m. O atleta MARTINEAU está mais associado a
variável X100m. Os atletas HERNU, BERNARD e YURKOV estão mais associados
com as variáveis X100mBa, X400m e SaltVara.

• Na Figura 6(c)

– Conclui-se que as variáveis SaltAlt e LanPeso apresentam uma maior relação com a CP1 ,
relação esta positiva. Enquanto a variável X1500m mostra ser a variável com maior
associação, positiva, com a CP4 . Ainda se consegue afirmar que X100mBA e X100m
apresentam uma forte relação, negativa, com a CP1 . As restantes são explicadas por
ambas as componente principais.
– Os atletas Karpov, Macey e Bernard estão mais associados as variáveis LanPeso, Lan-
Dis e SaltAlt. Os atletas CLAY e KARPOV estão mais relacionados com a variável
X1500m.Os atletas Clay, Sebrle e Warners estão mais relacionados com a variável Salt-
Com e LancDar. O atleta MARTINEAU está mais associado a variável X100m. Os

15
atletas HERNU e BARRAS estão mais associados com a variável X400m. Os atletas
Barras, Drews e Schwarzl estão mais associados as variáveis SaltVara e X100mBa.

É de salientar que estes atletas estão associados às variáveis devido à obtenção de melhores
e/ou piores performance nas competições.
De seguida, será aplicada uma rotação com o objetivo de facilitar a interpretação das diversas
componentes principais, transformando os coeficientes das componentes numa estrutura simplifi-
cada, ou seja, encontrar uma matriz de pesos na qual cada variável tivesse um peso alto apenas
num factor e pesos pequenos ou moderados nos restantes factores. Quanto mais próximo o peso
estiver de 1 ou −1, maior é a associação entre as variáveis e a componente, enquanto mais próximo
de 0, menor é a contribuição dessa variável para a formação da componente.
Segundo a Tabela 5, verifica-se que a CP1 possui 6 das 10 variáveis com maior peso, apresen-
tando assim valores muito elevados para vários fatores. Devido a isto, será realizada a rotação
Varimax com objetivo de distribuir melhor os pesos pelas restantes componentes retidas, ou seja,
maximizar a variação entre os pesos de cada componente. Em geral, são considerados significativos
os pesos iguais ou superiores a 0.5, em módulo (Kaiser, 1958).
Com isto, encontram-se registados os novos pesos e suas respetivas comunalidades na Tabela
6. É de salientar que, após a aplicação da rotação, o valor das comunalidades apresenta poucas
diferenças devido ao arredondamento dos valores.

Tabela 6: Matriz dos pesos e comunalidades das CP retidas após rotação Varimax
Componentes principais retidas Comunalidades
Variáveis
1 2 3 4 Extração
X100m 0.848 -0.100 -0.243 -0.142 0.808
SaltCom -0.794 0.000 0.331 0.127 0.756
LanPeso -0.232 0.542 0.657 0.194 0.817
SaltAlt -0.190 0.793 0.253 -0.142 0.749
X400m 0.824 -0.126 0.060 0.276 0.775
X100mBa 0.835 -0.216 0.164 -0.175 0.801
LanDis -0.291 0.647 0.323 0.422 0.786
SaltVara -0.030 -0.808 0.290 0.284 0.819
LancDar -0.030 -0.010 0.921 -0.080 0.856
X1500m -0.050 -0.160 -0.040 0.921 0.878

Analisando os dados resultantes da rotação Varimax, constata-se que a primeira componente


deixou de apresentar 6 pesos mais elevados e passaram a ser só 4, mostrando, assim, que os pesos
ficaram melhor distribuídos pelas restantes componentes.
Tal como a análise anterior, é realizado uns gráficos Biplot que representa graficamente os dados
multivariados com aplicações das CP com os respetivos novos pesos associados. Para motivo de
comparação, optou-se, novamente, por 3 cenários envolvendo CP1 que continua a ser a variável com

16
maior explicação da variabilidade total, variando CP2, CP3 e CP4, não descartando as restantes
combinações das componentes.

(a) CP1 vs CP2 (b) CP1 vs CP3

(c) CP1 vs CP4

Figura 7: Plots da CP1 vs CP2, CP1 vs CP3 e CP1 vs CP4 para todas as variáveis

Analisando os dados, retiram-se as seguintes conclusões:

• Figura 7(a): A variável SaltCom apresenta uma relação forte negativa com a CP1 enquanto
as variáveis X100m, X100 e X100Ba estão, também, fortemente relação mas positivamente.

17
Em relação à CP2 , as variáveis X1500m e SaltVar são aquelas que melhor explicam a com-
ponente principal. As restantes, apesar de estarem mais próximas do eixo da CP2 , explicam
ambas as CP. É relevante afirmar que LanDard não é explica por nenhuma.

• Figura 7(b): A variável LanDard já se encontra explicada pela CP3 , uma vez que não era
explicada nem pela CP1 e CP2 . Esta e a SaltVar apresentam uma fraca relação com a CP1
e uma forte, positiva, com a CP3 . As variáveis que, na figura anterior, apresentavam uma
forte relação positiva com a CP1 mantêm o mesmo comportamento. A X1500m, como era
de prever, não é explicada por nenhuma componente.

• Figura 7(c): As variáveis que mais contribuem para a CP1 são as mesmas descritas no
primeiro ponto. As variáveis que melhor explicam a CP4 são X1500m, SaltVar e LanDard,
sendo que as primeiras duas tem uma relação positiva e mais forte que a última, apresen-
tando, ainda, uma alteração da sua relação, passando a ser negativa.

Estas conclusões salientam o facto de, após a rotação Varimax, os pesos de cada componente
variam, sendo mais perceptível quais as variáveis que mais influenciam cada componente.

5 Análise de Agrupamento
A Análise de Agrupamento/Clusters (AA) é uma técnica exploratória multivariada que per-
mite avaliar a dimensionalidade das relações estruturais, por meio de agrupamento natural entre
indivíduos. Tem como objetivo a classificação de elementos de acordo com as características, sim-
plificando os dados e sugerindo hipóteses acerca das relações. O ideal é que, após o agrupamento,
os grupos "formados"possuam um nível de similaridade (correlação) relativamente alto e um nível
de distância relativamente baixo (Lamb e Minx, 2020).
Os métodos de agrupamento podem ser separados em duas classificações: Método Hierár-
quico e Método não Hierárquico. O Método hierárquico difere do não hierárquico devido à
necessidade deste último definir, à priori, o número de partições. A técnica hierárquica baseia-
se na definição de uma hierarquia em forma de árvore, ligando as amostras associadas entre si,
gerando uma reprodução gráfica chamada de dendrograma, no qual as observações parecidas, fun-
damentada nos indicadores empregados no estudo, são reunidos ou agrupados entre si. Já para o
agrupamento não hierárquico, os dados são agrupados separando as amostras em k grupos de vari-
ância igual, de forma a minimizar a distância de cada amostra entre os pontos centrais escolhidos
para cada grupo. (Crispim et al., 2020).
Relativamente ao agrupamento hierárquico, optou-se por utilizar 3 distâncias, Euclidiana, Ma-
nhattan e Minkowski, e os métodos ward.D2, average e complete. A escolha do melhor dendro-
grama, ou seja, da melhor divisão é feita a partir da correlação cofenética. Este coeficiente mede
o grau de preservação das distâncias emparelhadas pelo dendrograma resultante do agrupamento

18
em relação às distâncias originais. O valor ideal deve ser superior a 0.75. Para o agrupamento
não-hierárquico utilizou-se o Algoritmo K-Means.
A análise foi feita para os dados padronizados e para os dados originais.

5.1 Agrupamento hierárquico - Agrupamento aglomerativo


Inicialmente, é feito dendrogramas para as três distâncias mencionadas anteriormente e as suas
respetivas ligações. A partir da correlação cofenética, registada na Tabela 7, é escolhido o melhor
dendrograma para os dois tipos de dados utilizados, dados originais e padronizados.

Tabela 7: Correlação cofenética


Euclidiana Manhattan Minkowski
ward.D2 average complete ward.D2 average complete ward.D2 average complete
Dados padronizados 0.6009 0.7108 0.6722 0.5899 0.6764 0.5083 0.6009 0.7108 0.6722
Dados não padronizados 0.5989 0.7758 0.5313 0.6188 0.7773 0.4996 0.5989 0.7758 0.5313

A partir da Tabela 7, pode-se afirmar que a correlação cofenética para os dados padronizados
obteve os mesmos valores pela distância Euclidiana e pela distância de Minkowski, ambas com o
método de ligação average, método que utiliza a média entre as distância dos clusters. Portanto
preferiu-se a distância Euclidiana, uma vez que que é a distância mais conhecida na generalidade.
Para os dados originais, o melhor resultado foi obtido pela distância de Manhattan, também com
o método de ligação de average. É relevante afirmar que, nos dados originais a diferença da
correlação cofenética entre as respetivas distâncias foi muito pequena.
Com isto, elaborou-se os respetivos dendogramas com as caraterísticas descritas anteriormente.
Os restantes dendrogramas encontram-se colocados em Apêndice A.

(a) Dendrograma - dados padronizados (b) Dendrogrma - dados origianis

Figura 8: Agrupamento hierárquico

A partir da Figura 8, consegue-se concluir que, para os diferentes tipos de dados utilizados
formam, igualmente, três agrupamentos. Mas, apesar desta igualdade, os dados agrupados, ou
seja, a constituição dos aglomerados/grupos são diferentes.

19
Tabela 8: Distribuição dos diferentes Grupos
Agrupamentos
Grupo 1 Grupo 2 Grupo 3
Dados Originais 3 21 3
Tamanho
Dados Padronizados 2 2 23

Após uma pequena análise da constituição de cada grupo, pode-se afirmar que nos dois pe-
quenos grupos formados em ambos os casos, só se encontram atletas que participaram na mesma
prova, por exemplo, no dendograma dos dados padronizados, o grupo representado a roxo só se
encontram atletas que participaram nos Jogos de Décastar, enquanto no grupo a cor de rosa são só
os que participaram nos Jogos Olímpicos. Já o grupo azul apresenta uma constituição heterogénea,
uma vez que existem atletas de ambas as competições.

5.2 Agrupamento não hierárquico - k-means


Inicialmente, é feito um gráfico para saber qual o número de clusters, uma vez que é neces-
sário definir à priori, utilizando o método average silhouette. Este método avalia a qualidade do
agrupamento estabelecendo quão bem cada objeto se encaixa no seu cluster. É calcula a silhueta
média das observações para os diferentes valores de k, sendo que o número ótimo de clusters k é
aquele que maximiza a silhueta média num intervalo de valores possíveis para k.

(a) Dados padronizados (b) Dados originais

Figura 9: Número de clusters pelo método da silhueta média

Pela Figura 9, percebe-se, claramente, que o número de clusters a utilizar são 2, tanto para os
dados padronizados como para os originais.

20
Figura 10: Método k-means (k=2) para dados padronizados e originais

Pela Figura 10, pode-se afirmar que, pelos dados padronizados consegue-se dividir claramente
em 2 clusters distintos, sendo que o cluster em vermelho é constituído por 19 atletas e o cluster
em azul por 8 atletas. Enquanto os dados originais, os clusters misturam-se, não havendo clara
distinção, onde a constituição do cluster em vermelho apresenta 20 atletas e o cluster em azul
apresenta 7 atletas.

6 Conclusão
As principais vantagens de uma análise discriminante são relacionadas à sua simplicidade como
método de classificação que produzem uma ferramenta de fácil interpretação e visualização. Mas,
contudo, a linearização feita pode não ser adequada para determinados tipos de classificação. O
facto de ter muitos pressupostos também não é muito benéfico, visto que os resultados acabam por
não ser muito fidedignos. Neste caso, decidiu-se fixar duas funções discriminantes e, a partir destas,
classificar os indivíduos pelos quatro grupos utilizados. Esta classificação tem uma credibilidade
de 85.2%.
Para a análise de componentes principais, é possível afirmar que o seu poder representativo
é forte, o facto de reduzir o número de variáveis em estudo faz com que haja um custo reduzido
de armazenamento e é fácil de ser implementado. Contudo, é muito sensível aos outliers e não
é recomendado quando a matriz de correlações apresenta muitos zeros. Após esta análise foram
necessários 4 componentes principais para explicar a variância dos dados, explicando 80.45%

21
da variabilidade total dos dados. Isto só foi possível, porque o valor obtido após o cálculo da
estatística de Kaiser-Meyer-Olkin (KMO) foi considerado um resultado razoável e, ainda, no teste
de esfericidade de Bartlett rejeitou-se a hipótese nula, uma vez que, o valor de prova foi inferior a
0.05, ou seja, as variáveis apresentavam relações entre si. Realizou-se também a rotação Varimax
para distribuir melhor as cargas de cada componente principal. A partir dos gráficos Biplots foi
possível perceber quais os atletas e quais as variáveis que estavam mais associados a cada prova
do decatlo e a cada componente principal, respetivamente.
A análise de clusters apresenta variadíssimas vantagens a nível empresarial, como por exem-
plo, aumenta a precisão das campanhas e as suas análises são muito completas. Neste trabalho
apresentou-se dois dois tipos de abordagem: hierárquica e não hierárquica. Na análise de cluters
hierárquico concluiu-se que, para os dados originais utilizou-se a distância Euclidiana com o mé-
todo de ligação average, já para os dados originais utilizou-se a distância de Manhattan, também
com o método de ligação average. Estas opções foram feitas com base no valor da correlação
cofenética. Os dendrogramas para ambos os dados foram divididos em 3 grupos. Quanto à analise
não hierárquica, K-Means, no qual, a partir método average silhouette, foi possível saber o número
ótimo de cluster, novamente, em ambos os dados foi de 2 clusters.

22
Referências
Crispim, D. L., Fernandes, L. L., Ferreira Filho, D. F., Lira, B. R. P., 2020. Comparação de
métodos de agrupamentos hierárquicos aglomerativos em indicadores de sustentabilidade em
municípios do estado do pará. Research, Society and Development 9 (2), e60922067–e60922067.

Gonçalves, A. M., 2023. Capítulo V: Analise discriminante. Apontamentos de aula.

Kaiser, H. F., 1958. The varimax criterion for analytic rotation in factor analysis. Psychometrika
23 (3), 187–200.

Lamb, W. F., Minx, J. C., 2020. The political economy of national climate policy: Architectures
of constraint and a typology of countries. Energy Research & Social Science 64, 101429.

Russo, C., 2022. Análise multivariada e aprendizado não-supervisionado aula 11a: Análise
discriminante linear. Disponível em:<https://edisciplinas.usp.br/pluginfile.php/
5834860/mod_resource/content/1/11.%20An%C3%A1lise%20discriminante.pdf>. Acesso
em 04/04/2023.

Viccini, L., et al., 2018. Técnicas multivariadas explanatórias: teorias e aplicações no software
Statistica. Editora UFSM.

Wikipedia, 2022. Jogos olímpicos de verão de 2004. Disponível em:<https://pt.m.wikipedia.


org/wiki/Jogos_Ol%C3%ADmpicos_de_Ver%C3%A3o_de_2004>. Acesso em 04/04/2023.

Wikipedia, 2023. Decastar. Disponível em:<https://en.m.wikipedia.org/wiki/D%C3%


A9castar>. Acesso em 04/04/2023.

23
A Apêndice

(a) Método Average (b) Método Complete (c) Método Ward.D2

Figura 11: Distância Euclidiana - dados padronizados

(a) Método Average (b) Método Complete (c) Método Ward.D2

Figura 12: Distância Manhattan - dados padronizados

(a) Método Average (b) Método Complete (c) Método Ward.D2

Figura 13: Distância Minkowski - dados padronizados

24
(a) Método Average (b) Método Complete (c) Método Ward.D2

Figura 14: Distância Euclidiana - dados não padronizados

(a) Método Average (b) Método Complete (c) Método Ward.D2

Figura 15: Distância Manhattan - dados não padronizados

(a) Método Average (b) Método Complete (c) Método Ward.D2

Figura 16: Distância Minkowski - dados não padronizados

25

Você também pode gostar