Você está na página 1de 7

MÉTODOS ESTATÍSTICOS MULTIVARIADOS 1

DISCIPLINA MÉTODOS ESTATÍSTICOS MULTIVARIADOS

OBJETIVOS:
-INTRODUZIR MÉTODOS ESTATÍSTICOS MULTIVARIADOS PARA LEIGOS
-SERVIR COMO UM GUIA PRÁTICO
- ILUSTRAR AS POSSIBILIDADES DE ANÁLISE ESTATÍSTICA MULTIVARIADA

PRÉ-REQUISITOS
- CONHECIMENTO PRÁTICO DE ESTATÍSTICA ELEMENTAR
-TESTES DE SIGNIFICÂNCIA USANDO A DISTRIBUICÃO NORMAL, t, QUI-
QUADRADO E F
- ANÁLISE DE VARIÂNCIA E REGRESSÃO LINEAR
- ÁLGEBRA MATRICIAL (RAZOÁVEL COMPETÊNCIA NA ÁREA)
- ACESSO A ALGUM PACOTE COMPUTACIONAL
OBS: TODOS OS ALUNOS DEVEM DURANTE A DISCIPLINA IMAGINAR OS
SEUS DADOS EM CADA TÉCNICA MULTIVARIADA QUE FOR SENDO
EXPLANADA

O MATERIAL DE ANÁLISE MULTIVARIADA


1.1 EXEMPLOS DE DADOS MULTIVARIADOS (VÁRIAS VARIÁVEIS
RELACIONADAS, SIMULTANEAMENTE)

UNIVARIADO × MULTIVARIADOS
ENSAIOS OBSERVACIONAIS × EXPERIMENTAIS

EXEMPLO 1.1 PARDAIS SOBREVIVENTES DA TEMPESTADE


DESCRIÇÃO: APÓS UMA FORTE TEMPESTADE EM 1˚ DE FEVEREIRO DE 1898,
DIVERSOS PARDAIS MORIBUNDOS FORAM LEVADOS AO LABORATÓRIO
BIOLÓGICO DE HERMON BUMPUS NA UNIVERSIDADE DE BROWN EM RHODE
ISLAND. APROXIMADAMENTE METADE DOS PÁSSAROS MORREU E BUMPUS
VIU ISSO COMO UMA OPORTUNIDADE DE ENCONTRAR SUPORTE PARA A
TEORIA DE SELEÇÃO NATURAL DE CHARLES DARWIN. TOMOU 8 MEDIDAS
MORFOL Ó GICAS EM CADA PASSARO E TAMBEM OS PESOU. OS
RESULTADOS DE 5 MEDIDAS SÃO MOSTRADOS NA TABELA 1.1, PARA
FÊMEAS SOMENTE.

Tabela 1.1 Medidas do corpo de pardocas


PASSAROS X1 (mm) X2 (mm) X3(mm) X4(mm) X5 (mm)
1 156 245 31,6 18,5 20,5
... ... ... ... ... ...
49 164 248 32,3 18,8 20,9
Nota: X1 Comprimento Total ...

Francis Galton, 1877, iniciou estudos do coeficiente de correlação linear como uma
medida de relação entre duas variáveis.

Carlos Tadeu dos Santos Dias


MÉTODOS ESTATÍSTICOS MULTIVARIADOS 2

Harold Hotelling 1956, descreveram um método pratico para componentes


principais

QUESTÕES À RESPONDER:
1. Como estão as várias variáveis relacionadas?
Por exemplo, um valor grande para uma das variáveis tende a ocorrer com
valores grandes para as outras variáveis?
2. Os sobreviventes e não-sobreviventes têm diferenças estatisticamente
significantes para seus valores médios das variáveis?
3. Os sobreviventes e não-sobreviventes mostram quantidades similares de
variação para as variáveis?
4. Se os sobreviventes e não-sobreviventes diferem em termos das
distribuições das variáveis, então é possível construir alguma função dessas
variáveis que separe os dois grupos?
Então seria conveniente se valores grandes da função tendessem a ocorrer com
os sobreviventes enquanto que a função seria aparentemente um índice de ajuste
darwiniano das pardocas.

EXEMPLO 1.2 CRÁNIOS EGÍPCIOS


Medidas feitas em crânios masculinos da área de Tebas no Egito. Há cinco amostras de 30
crânios cada uma dos períodos: Pré-dinástico primitivo (cerca de 4000 a.c.); Do período
pré-dinástico (cerca de 3300 a.c.); Da 12ª e 13ª dinastias (cerca de 1850 a.c.); Do período
ptolemaico (cerca de 200 a.c.); Do período romano (cerca de 150 d.c.).

Tabela 1.2 Medidas de crânios egípcios masculinos (mm)


P.D.P. P.P.D Da 12ª e 13ª D. P.P. P.R.
Crânios X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4
1 131 138 89 49 124 138 101 48 137 141 96 52 137 134 107 54 137 123 91 50
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
30 124 138 101 46 130 128 101 51 138 133 91 46 135 130 100 51 136 133 97 51

Figura 1.1

QUESTÕES À RESPONDER:
1. Como estão as quatro variáveis relacionadas?
2. Existem diferenças estatisticamente diferentes nas médias amostrais das variáveis?
E se existem, essas diferenças refletem mudanças graduais ao longo do tempo na
forma e tamanhos dos crânios?
3. Existem diferenças significantes nos desvios padrão amostrais para as variáveis, e se
existem, essas diferenças refletem mudanças graduais ao longo do tempo na
quantidade de variação?
4. É possível construir uma função das quatro variáveis que, em algum sentido,
descreva as mudanças ao longo do tempo?
Obs.: Existem diferenças entre as cinco amostras que podem ser explicadas parcialmente
como tendências no tempo.
Obs.: No entanto, as razões para as aparentes mudanças são desconhecidas. Por exemplo,
migração de outras raças dentro da região pode ter sido o fator mais importante.

Carlos Tadeu dos Santos Dias


MÉTODOS ESTATÍSTICOS MULTIVARIADOS 3

EXEMPLO 1.3 DISTRIBUIÇÃO DE BORBOLETAS


DESCRIÇÃO: 16 colônias de borboletas Euphydryas editha na Califórnia e Oregon.

Tabela 1.3 Variáveis ambientais e freqüências gênicas


Altitude Precipitação Temperaturas Freq. de mobilidade gênica Pgi (%)
Colônias (pés) Anual (pol.) Máxima Mínima 0,4 0,6 0,8 1 1,16 1,3
SS 500 43 98 17 0 3 22 57 17 1
... ... ... ... ... ... ... ... ... ... ...
GL 10500 50 81 -12 0 3 1 92 4 0

Obs.: As ˝freqüências˝ descrevem a distribuição genética das borboletas

Figura 1.2 localização geográfica das colônias

QUESTÕES À RESPONDER:
1. São as ˝freqüências˝ Pgi similares para colônias que estão próximas no espaço?
2. O quanto, se algum, as ˝freqüências˝ Pgi estão relacionadas às variáveis ambientais?
Obs.: São questões importantes na tentativa de decidir como as ˝freqüências˝ Pgi são
determinadas:
- Se a composição genética das colônias foi largamente determinada pelas migrações
passadas e presentes, então as ˝freqüências˝ gênicas tenderão a ser similares para colônias
que estão localizadas nas proximidades, apesar delas poderem mostrar um pequeno
relacionamento com as variáveis ambientais.
- Por outro lado, se o meio ambiente é mais importante, então isso deve aparecer em
relacionamentos entre as ˝freqüências˝ gênicas e as variáveis ambientais (assumindo que
tenham sido medidas as variáveis corretas)
Obs.: O pesquisador tem que dominar a informação que as variáveis trazem para sua
pesquisa. Definir bem quais são as importantes e sempre mirando no objetivo da pesquisa.
Não deve ser o estatístico ou uma expressão⁄modelo estatística que define isso.
- Colônias próximas somente têm freqüências gênicas similares se elas têm ambientes
similares.
- Obviamente que colônias que estão próximas no espaço usualmente têm ambientes
similares (APARENTEMENTE), de modo que pode ser difícil chegar a uma conclusão
sobre essa questão.

EXEMPLO 1.4 CÃES PRÉ-HISTORICOS NA TAILÂNDIA


Tabela 1.4 Médias de medidas de mandíbulas para sete grupos caninos (mm)
Grupo X1 X2 X3 X4 X5 X6
Cão moderno 9,7 21,0 19,4 7,7 32,0 36,5
... ... ... ... ... ... ...
Cão pré-histórico (PH) 10,3 22,1 19,1 8,1 32,2 35,0

Obs.: A origem dos cães PH não é conhecida.


Obs.: Na tentativa de esclarecer os ancestrais dos cães PH foram feitas medidas de
mandíbula em espécimes de todos os 7 grupos

Carlos Tadeu dos Santos Dias


MÉTODOS ESTATÍSTICOS MULTIVARIADOS 4

QUESTÕES À RESPONDER:
1. O que as medidas sugerem sobre os relacionamentos entre os grupos?
2. Como os cães PH parecem se relacionar com os outros grupos?
EXEMPLO 1.5 EMPREGO EM PAISES EUROPEUS
Tabela 1.5 Porcentagem de força de trabalho de empregados em nove diferentes grupos de
indústria em 30 países da Europa
País Grupo AGR MIN FAB FE CON SER FIN SSP TC
Bélgica UE 2,6 0,2 20,8 0,8 6,3 16,9 8,7 36,9 6,8
... ... ... ... ... ... ... ... ... ... ...
Turquia Outro 44,8 0,9 15,3 0,2 5,2 12,4 2,4 14,5 4,4

Objetivos:
- Isolar grupos de países com padrões similares de empregos
- Entender os relacionamentos entre os países
- Diferenças entre países que são relacionados a grupos políticos (EU, AELC, LESTE EU)
podem ser de particular interesse.

1.2 VISÃO PRÉVIA DOS MÉTODOS MULTIVARIADOS

ANÁLISE DE COMPONENTES PRINCIPAIS – ACP (PCA)


O QUE É: São combinações lineares das variáveis originais
OBJETIVO: Reduzir o número de variáveis a um número menor de índices
(Componentes principais) e que expliquem grande parte das variâncias das variáveis
originais
EXEMPLO: Grande parte da variação nas medidas do corpo das pardocas (X1 a X5, Tabela
1.1) está relacionada ao ˝tamanho geral dos pássaros˝ e o total
I1=X1+X2+X3+X4+X5,
mede esse aspecto dos dados, em uma dimensão.
Obs.: Em estatística, uma combinação de variáveis aleatórias, também é uma variável
aleatória (Redução de 5 →1)
I2=X1+X2+X3-X4-X5,
é um contraste entre as três primeiras variáveis medidas e as duas ultimas. Este reflete outra
dimensão dos dados.
Obs.: Essa combinação linear nas variáveis X's aqui obtidas de forma arbitrária, pode não
maximizar a informação de variância total das X's
Obs.: A ACP fornece uma forma objetiva de encontrar índices, tornando concisa a
informação de variação nos dados.
∆ A ACP é um meio de simplificar dados pela redução do número de variáveis.

ANÁLISE DE FATORES – AF (FA)


O QUE É: Ao contrário da ACP, na AF cada variável original é expressa como uma
combinação linear desses fatores, mais um termo residual que reflete o quanto a
variável é independente das outras variáveis.
Estudar a variação das variáveis originais usando um número menor de variáveis
índices ou FATORES
EXEMPLO: Um modelo de dois fatores para os dados das pardocas:

Carlos Tadeu dos Santos Dias


MÉTODOS ESTATÍSTICOS MULTIVARIADOS 5

X1=a11F1+a12F2+e1
X2=a21F1+a22F2+e2
X3=a31F1+a32F2+e3
X4=a41F1+a42F2+e4
X5=a51F1+a52F2+e5
em que aij – são constantes; F1 e F2 –são fotores; ei – são erros específicos (parte da
variação em Xi que é independente da variação nas outras variáveis).
- Aqui, F1 pode ser o fator ˝Tamanho˝ e a11, a21, a31 a41 e a51 seriam todos positivos,
refletindo o fato de que alguns pássaros tendem a ser grandes e outros pequenos em todas
as medidas do corpo.
- F2 poderia medir a forma dos pássaros com alguns coeficientes positivos e outros
negativos
Obs.: Se o modelo com F1 e F2 ajustar bem aos dados, então ele forneceria uma descrição
relativamente direta do relacionamento entre as cinco medidas do corpo que estão sendo
consideradas.
F1* F1
ROTAÇÃO FATORIAL (VARIMAX) F2*
OBJETIVO: facilitar a interpretação dos Fatores.
F2
ANÁLISE DE FUNÇÃO DISCRIMINANTE – AFD (DFA)
OBJETIVO: Formar diferentes grupos de observações (ou indivíduos, amostras), com base
nas variáveis disponíveis.
EXEMPLO: A AFD pode ser usada para ver quão bem pardais sobreviventes e não-
sobreviventes podem ser separados usando suas medidas e assim ver quais variáveis
discriminam tais populações.
BASE: Combinações lineares convenientes das variáveis originais.
Distâncias
ANÁLISE DE AGRUPAMENTO (AG)
O QUE É: é a identificação de objetos similares

O2 O5 O1 O3 O2
Objetos
Obs.:Nos exemplos dos pardais, não há muito sentido em fazer AG, pois os grupos já
existem a priori (sobreviventes e não-sobreviventes). Idem para o exemplo dos crânios
egípcios, pois épocas já são conhecidas.

Obs.: No exemplo 1.3 poderá haver algum interesse em agrupar colônias de borboletas com
base nas variáveis ambientais ou ˝freqüências˝ Pgi ou ambas.

Obs.: No exemplo 1.4 o principal interesse está na similaridade entre cães pré-históricos
tailandeses e outros animais (a similaridade entre as outras raças e de interesse secundário)

Obs.: No exemplo 1.5 os países europeus podem possivelmente ser agrupados em termos
de suas similaridades no padrão de empregos.

Carlos Tadeu dos Santos Dias


MÉTODOS ESTATÍSTICOS MULTIVARIADOS 6

ANÁLISE DE CORRELAÇÃO CANÔNICA – ACC (CCA)


OBJETIVO: Descobrir alguma relação entre grupo de variáveis (não objetos)
No Exemplo 1.3 o interesse biológico está na relação entre as variáveis genéticas e
ambientais

ANÁLISE DE ESCALONAMENTO MULTIDIMENSIONAL – AEM (MSA)


OBJETIVO: À partir de alguma medida de distâncias entre objetos constrõe-se um mapa
mostrando como estes objetos estão relacionados. Ex: Relações entre capivaras (Tot/Unila)
No Exemplo 1.4 há formas de medir as distâncias entre cães modernos e jacais dourados,
cães modernos e lobos indianos etc. Temos 21 distâncias e delas a AEM pode ser usada
para produzir um tipo de mapa de relacionamento entre os grupos.
MAPA UNIDIMENSIONAL →GRUPOS EM UMA LINHA RETA
MAPA BIDIMENSIONAL → GRUPOS EM PONTOS EM UM PLANO
MAPA TRIDIMENSIONAL → GRUPOS EM UM CUBO

Obs.: Soluções de quarta dimensão ou mais são possíveis, mas de uso limitado, pois não
podem ser visualizados de forma simples.

Obs.: A AEM pode ser uma alternativa útil à AG.


- No exemplo 1.4 mostraria imediatamente quais grupos de cães o PH são mais similares
- No exemplo 1.5 uma AEM mostraria países do leste europeu podem estar juntos de países
do oeste europeu, por suas características de semelhança nas suas políticas de emprego.

Obs.: Métodos de ordenação – CP e EM, produzem eixos nos quais um conjunto de objetos
de interesse pode ser representado. Existem outros

ANÁLISE DE COORDENADS PRINCIPAIS (AC*P)


DEFINIÇÃO: é um tipo de ACP que inicia com informações sobre o quanto os pares de
objetos são diferentes (medidas de dissimilaridades) em vez dos valores das medidas dos
objetos (dados originais)
OBJETIVOS: os mesmos da AEM, mas os métodos numéricos são diferentes.

ANÁLISE DE CORRESPONDÊNCIA (AC)


CARACTERÍSTICAS DOS DADOS: Dados de abundância (freqüência, ocorrência) de
cada uma das variáveis, para cada objeto (indivíduo, amostra).
ÚTIL: em ecologia – diferentes locais (objetos) e diferentes espécies (variáveis)
OBJETIVO: tornar clara as relações entre os locais,
em termos de distribuição das espécies e vice-versa
Ácaros, insetos,
1.3 A DISTRIBUIÇÃO NORMAL MULTIVARIADA bactérias, vírus,
IMPORTÂNCIA: muitos métodos estatísticos, assumem a DNM no pássaros, pessoas,
momento de realizar os testes estatísticos (ANÁLISE CONFIRMATÓRIA) borboletas, árvores,
EXIGÊNCIA MÍNIMA PARA A MULTINORMALIDADE: plantas, micro- ou
Que cada variável seja individualmente normal (mas isso não garante a macro-nutrientes etc.
multinormalidade!) X~Np(μ,Σ)
TRANSFORMAÇÂO DE DADOS (Potência ótima de Box-Cox) – pode levar uma
variável à normalidade!

Carlos Tadeu dos Santos Dias


MÉTODOS ESTATÍSTICOS MULTIVARIADOS 7

1.4 PROGRAMAS COMPUTACIONAIS


Não se consegue fazer uma boa análise estatística multivariada sem o uso de computadores!
O uso de métodos multivariados por pesquisadores é ainda hoje escasso!
RAZOES:
- Desconhecimento dos métodos multivariados;
- Receio do uso de álgebra de matrizes;
- Medo de interpretar os resultados;
Precisamos ser mais ˝agressivos˝ no uso desses métodos!
SAS – R – SPSS – CANOCO (ter Braak e Smilauer, 2003) – PC-ORD (Digisys, 2003)
XLSTAT-PRO (Xlstat, 2003) add-in para o Excel, GenStat, MINITAB, MVSP 3.1, NCSS
2004, Stata 8.0, Statistica 6.1

1.5 MÉTODOS GRÁFICOS


A grande evolução das facilidades computacionais tem levado a um crescimento na
variedade de métodos gráficos disponíveis para dados multivariados, p.ex. BIPLOT

Carlos Tadeu dos Santos Dias

Você também pode gostar