Você está na página 1de 224

EXPERIMENTAO E ANLISE

MULTIVARIADA
1

NOES BSICAS DE EXPERIMENTAO

Muito do conhecimento
que a
humanidade acumulou ao longo dos
sculos foi adquirido atravs da
experimentao.
A
ideia
de
experimentar no apenas antiga,
mas est presente ainda nos dias
atuais.
A experimentao, no entanto, s se
difundiu como tcnica sistemtica de
pesquisa quando foi formalizada
atravs da estatstica.
2
EXPAM54 - Experimentao e Anlise
Multivariada

NOES BSICAS DE EXPERIMENTAO


A origem agrcola:

Boa parte da formalizao que existe


hoje em experimentao se deve a Sir
Ronald A. Fisher (1890-1962), um
estatstico que trabalhou na Estao
Experimental
de
Agricultura
de
Rothamstead, na Inglaterra.

a
origem
agrcola
da
experimentao que explica o uso de
3
- Experimentao e Anlise
vrios termos EXPAM54
tcnicos.
Multivariada

NOES BSICAS DE EXPERIMENTAO


Alguns conceitos:

Unidade Experimental (ou Parcela):


cada uma das unidades usadas no
experimento.
Tratamento: o que se est
comparando.
Exemplos:
fertilizantes, mquinas, mtodos,
produtos, materiais, etc.

EXPAM54 - Experimentao e Anlise


Multivariada

NOES BSICAS DE EXPERIMENTAO


Alguns conceitos:

Grupo Controle (ou testemunha):


grupo de unidades experimentais
que no recebem um determinado
tratamento a fim de verificar a
efetividade
deste.
Exemplo:
comparar um grupo que recebe um
medicamento com um grupo que
recebe placebo (plulas de farinha).
EXPAM54 - Experimentao e Anlise
Multivariada

NOES BSICAS DE EXPERIMENTAO


Alguns conceitos:

Repetio (ou rplica): grupo de


unidades
experimentais
que
receberam um mesmo tipo de
tratamento.
Casualizao (ou aleatorizao):
o sorteio que feito para designar
os tratamentos a cada uma das
unidades experimentais disponveis.
EXPAM54 - Experimentao e Anlise
Multivariada

NOES BSICAS DE EXPERIMENTAO


Alguns conceitos:

Experimentos
cegos:
so
os
experimentos em que o pesquisador
desconhece
a
que
tipo
de
tratamento cada uma das unidades
experimentais foi submetido.

EXPAM54 - Experimentao e Anlise


Multivariada

NOES BSICAS DE EXPERIMENTAO


Alguns conceitos:

Experimentos duplamente cegos:


so os experimentos em que o
pesquisador
e
a
unidade
experimental desconhece a que tipo
de tratamento cada uma das
unidades
experimentais
foi
submetido. Exemplo: experimentos
na rea mdica.
EXPAM54 - Experimentao e Anlise
Multivariada

NOES BSICAS DE EXPERIMENTAO


O planejamento do experimento:

Para planejar um experimento


essencial
definir
a
unidade
experimental e o que ser medido ou
observado (varivel resposta) nessa
unidade. Depois preciso definir os
tratamentos que sero colocados em
comparao. Finalmente preciso
estabelecer a maneira de fazer a
casualizao (sorteio).
EXPAM54 - Experimentao e Anlise
Multivariada

NOES BSICAS DE EXPERIMENTAO


O planejamento do experimento:

Ser entendido que o experimento


est planejado quando so definidos:
a) A unidade experimental;
b) A varivel em anlise e a forma
como ser medida;
c) Os tratamentos em comparao;e
d) A forma como os tratamentos sero
designados
s
unidades
experimentais.
EXPAM54 - Experimentao e Anlise
Multivariada

10

NOES BSICAS DE EXPERIMENTAO


O planejamento do experimento:

Exemplo: Considere um estudo onde


se compara o efeito de duas raes na
engorda de sunos. Nesse caso o
experimento poderia ser planejado
como segue:
a) Unidade experimental: um animal.
b) Varivel em anlise: ganho do peso,
medido pela diferena entre o peso
final e inicial de cada animal.
EXPAM54 - Experimentao e Anlise
Multivariada

11

NOES BSICAS DE EXPERIMENTAO


O planejamento do experimento:
c)

d)

Tratamentos
em
comparao:
Rao da marca e rao da marca
B.
Forma de designar os tratamentos
s unidades: sorteio.

EXPAM54 - Experimentao e Anlise


Multivariada

12

OS DELINEAMENTOS EXPERIMENTAIS
Introduo:
Quando do planejamento de um
experimento essencial definir a forma,
o procedimento, como os tratamentos
so
designados
as
unidades
experimentais. Tais procedimentos so
chamados
de
delineamentos
experimentais.

EXPAM54 - Experimentao e Anlise


Multivariada

13

OS DELINEAMENTOS EXPERIMENTAIS
1 Experimentos Inteiramente ao Acaso
Um
delineamento
em
que
os
tratamentos
so
designados
s
unidades experimentais sem qualquer
restrio chamado de experimento
inteiramente ao acaso.
Este
delineamento
s
podem
empregados quando as unidades
experimentais so similares.
comum nesse tipo de experimento
que todos os tratamentos tenham um
14
- Experimentao e Anlise
nmero igualEXPAM54
de
repeties.
Multivariada

OS DELINEAMENTOS EXPERIMENTAIS
1 Experimentos Inteiramente ao Acaso

EXPAM54 - Experimentao e Anlise


Multivariada

15

OS DELINEAMENTOS EXPERIMENTAIS
2 Experimentos Inteiramente ao Acaso
com nmero diferente de repeties
O pesquisador nem sempre dispe de
um
nmero
de
unidades
experimentais que mltiplo
do
nmero de tratamentos que pretende
estudar. Em situaes assim temos um
experimento
inteiramente
ao
acaso com nmero diferente de
repeties.
So indicados para o estudo de drogas
16
EXPAM54 - Experimentao e Anlise
teraputicas.Multivariada

OS DELINEAMENTOS EXPERIMENTAIS
2 Experimentos Inteiramente ao Acaso
com nmero diferente de repeties

EXPAM54 - Experimentao e Anlise


Multivariada

17

OS DELINEAMENTOS EXPERIMENTAIS
3 Experimentos em Blocos ao Acaso
Em
situaes
prticas
dificilmente
dispe-se de unidades experimentais
similares.
Em tais situaes, emprega-se subgrupos
de unidades experimentais que so
similares (semelhantes) entre si. Tais
grupos so chamados de blocos.

EXPAM54 - Experimentao e Anlise


Multivariada

18

OS DELINEAMENTOS EXPERIMENTAIS
3 Experimentos em Blocos ao Acaso
Nessas
situaes,
realizamos
um
delineamento chamado de experimento
em blocos ao acaso.
Pelo fato das unidades experimentais
serem
similares,
o
sorteio
dos
tratamentos feito dentro de cada bloco.

EXPAM54 - Experimentao e Anlise


Multivariada

19

OS DELINEAMENTOS EXPERIMENTAIS
3 Experimentos em Blocos ao Acaso

EXPAM54 - Experimentao e Anlise


Multivariada

20

OS DELINEAMENTOS EXPERIMENTAIS
3 Experimentos em Blocos ao Acaso
Nota:
(a)Em um experimento em blocos ao acaso,
um bloco pode ser uma faixa de terra,
uma ala da estufa, um perodo de
tempo, uma ninhada, um lote de
produtos industriais, uma faixa de idade,
etc.
(b)O essencial que os blocos renam
unidades similares que se distingam
apenas pelos tratamento que recebem
21
e que haja variabilidade
entre
EXPAM54 - Experimentao
e Anlise blocos.
Multivariada

OS DELINEAMENTOS EXPERIMENTAIS
4 Experimentos em Blocos ao Acaso com
repetio
Em situaes prticas, algumas vezes o
nmero de unidades experimentais que
caem dentro de um bloco pode ser maior
do que o nmero de tratamentos que o
pesquisador pretende comparar.
Em tais situaes, emprega-se um
delineamento chamado experimento
em blocos ao acaso com repeties.
EXPAM54 - Experimentao e Anlise
Multivariada

22

OS DELINEAMENTOS EXPERIMENTAIS
4 Experimentos em Blocos ao Acaso com
repetio
Nota:
(a)O nmero de repeties dos tratamentos
em cada bloco deve ser o mesmo.
(b)A anlise estatstica dos experimentos
em blocos ao acaso com repeties
relativamente simples, desde que o
nmero de unidades dentro de cada
bloco seja um mltiplo do nmero de
tratamentos que se pretende comparar.
EXPAM54 - Experimentao e Anlise
Multivariada

23

OS DELINEAMENTOS EXPERIMENTAIS
4 Experimentos em Blocos ao Acaso com
repetio

EXPAM54 - Experimentao e Anlise


Multivariada

24

OS DELINEAMENTOS EXPERIMENTAIS
5 Experimentos em Quadrados Latinos

Os experimentos em quadrados
latinos controlam duas causas de
variao, ou seja, temos dois tipos de
blocos (um duplo bloqueamento).
Esse tipo de delineamento no comum,
na prtica, devido algumas restries. A
principal a de que o nmero de
unidades experimentais igual ao
quadrado do nmero de tratamentos
(tamanho de
amostra maior = custo
25
EXPAM54 - Experimentao e Anlise
Multivariada
maior)

OS DELINEAMENTOS EXPERIMENTAIS
5 Experimentos em Quadrados Latinos

EXPAM54 - Experimentao e Anlise


Multivariada

26

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)

Utilizando as tcnicas aprendidas na


disciplina ESTCA54, ficamos restritos a
anlises que envolvem at dois
parmetros.
Essas tcnicas que lidam com
inferncia
de
duas
amostras
representam um caso especial que
podemos chamar de problema com
um nico fator.
27
EXPAM54 - Experimentao e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)

Por exemplo, considere uma situao


onde

medido
o
tempo
de
sobrevivncia de duas amostras de
camundongos, sendo que um desses
grupos recebeu um soro contra
leucemia e o outro, no.
Nesse caso, dizemos que h um fator
chamado de tratamento, e o fator tem
dois nveis (i.e.,
presena
ausncia
28
EXPAM54
- Experimentaoe
e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)

No problema de k > 2 amostral, ser


assumido
que
h
k
amostras
provenientes de k populaes. Um
procedimento bastante utilizado para
lidar
com
testes
de
mdias
populacionais chamado de Anlise
de Varincia (ANOVA).

EXPAM54 - Experimentao e Anlise


Multivariada

29

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)

Exemplo: Suponha um experimento


industrial, que um engenheiro est
interessado em saber como
a
absoro mdia de uma mistura em
concreto varia entre cinco agregados
de concreto. As amostras foram
expostas mistura por 48 horas.

EXPAM54 - Experimentao e Anlise


Multivariada

30

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)

Exemplo (continuao): Decidiu-se


que seis amostras seriam testadas
para cada agregado, requerendo um
total de 30 amostras para serem
testadas. Os dados da absoro de
mistura dos agregados de concreto
esto registrados na tabela a seguir:

EXPAM54 - Experimentao e Anlise


Multivariada

31

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)
Absoro das misturas dos agregados de
concreto
Agregad
1
2
3
4
5
o
551

595

639

417

563

457

580

615

449

631

450

508

511

517

522

731

583

573

438

613

499

633

648

415

656

632

517

677

555

679

Total

3320

3416

3663

2791

3664

Mdia

553,3
3

569,3 610,5 465,1 610,6 561,8


3 EXPAM54
0 - Experimentao
7
7e Anlise0
Multivariada

16854

32

EXPERIMENTOS COM UM FATOR: GERAL


Tcnica da Anlise de Varincia (ANOVA)

O modelo para essa situao


considerado como se segue. Foram
retiradas seis observaes de cada
uma das 5 populaes com mdias 1,
2, 3, 4 e 5, respectivamente.
Podemos desejar testar:
H0: 1 = 2 = 3 = 4 = 5
H1: pelo menos duas mdias no so
33
EXPAM54 - Experimentao e Anlise
iguais.
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Duas fontes de variabilidade dos
dados:
Em um procedimento de anlise de

varincia, assume-se que qualquer


variao que h entre as mdias dos
agregados a atribuda:
1) Variao na absoro entre as
observaes DENTRO dos tipos de
agregados, e
2) Variao
ENTRE os tipos de
agregados, ou seja, devido s
diferenas EXPAM54
na composio
qumica
34
- Experimentao e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Duas fontes de variabilidade dos
dados:
A variao dentro dos agregados

produzida, obviamente por


fatores
(muitas
vezes
controlados).

vrios
no

Em
qualquer
taxa,
devemos
considerar a variao dentro da
amostra uma variao aleatrio ou ao
acaso, e parte do objetivo da anlise
de varincia determinar se as
35
EXPAM54
- Experimentao
e Anlise
diferenas
so
aquelas
que
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Anlise de varincia simples:
delineamento completamente
aleatorizado (ANOVA simples)

Amostras aleatrias de tamanho n so


selecionadas de cada populao k. As
k
diferentes
populaes
so
classificadas com base em um nico
critrio (one-way), ou seja, atravs de
um nico fator.

EXPAM54 - Experimentao e Anlise


Multivariada

36

EXPERIMENTOS COM UM FATOR: GERAL


Suposies e hipteses da ANOVA
simples
Assume-se que as k populaes so:
i.
ii.

iii.

Independentes;
Normalmente distribudas (ou seja,
seguem uma distribuio normal de
probabilidades) uma com mdias
i, i=1, 2, ..., k.
Homocedsticas, ou seja, possuem
uma varincia comum 2.
EXPAM54 - Experimentao e Anlise
Multivariada

37

EXPERIMENTOS COM UM FATOR: GERAL


Suposies e hipteses da ANOVA
simples
Considere que os dados esto

dispostos no formato da tabela abaixo:


Tratament
o:

...

...

y11 y21 ... yi1 ... yk1


y12 y22 ... yi2 ... yk2
... ...
...
...
y1n y2n ... yin ... ykn
Total
Mdia

y..
yY22.g ... Y
yii.g ... Yyk.k g Y
Yy1.
gg
1g
EXPAM54 - Experimentao e Anlise
Multivariada

38

EXPERIMENTOS COM UM FATOR: GERAL


Suposies e hipteses da ANOVA
simples
Onde:

yij: denota a j-sima observao


do i-simo tratamento.
Y i.
:
denota
o
total
de
observaes na amostra do iyi g
simo tratamento.

: denota a mdia de todas as


observaes na amostra do isimo tratamento.
39
EXPAM54 - Experimentao e Anlise

Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Suposies e hipteses da ANOVA
simples

Onde:
Y.. : denota o total de todas as nk
observaes.
ygg : denota a mdia de todas as
nk observaes.

EXPAM54 - Experimentao e Anlise


Multivariada

40

EXPERIMENTOS COM UM FATOR: GERAL


Suposies e hipteses da ANOVA
simples

Desejamos derivar
o mtodo
apropriado para testar a hiptese
H0: 1 = 2 = 3 = ...= k
H1: pelo menos duas mdias no so
iguais.

EXPAM54 - Experimentao e Anlise


Multivariada

41

EXPERIMENTOS COM UM FATOR: GERAL


Modelo para a ANOVA simples

Cada observao pode ser escrita


como
Yij = i + ij
Onde
i
:
mdia da i-sima
populao.
ij: mede o desvio da j-sima
observao da i-sima mdia
42
populacional
do tratamento
EXPAM54 - Experimentao
e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Resoluo da variabilidade total nos
componentes

Nosso teste ser baseado na


comparao de duas estimativas
independentes
da
variabilidade
populacional comum 2. Essas
estimativas sero obtidas dividindose a variabilidade total
de
nossos
k
n
2
dados,
atribuda
Variabilidade
Total pela
SQTotal soma
ydupla
ij y gg
i 1 j 1

EXPAM54 - Experimentao e Anlise


em dois componentes.
Multivariada

43

EXPERIMENTOS COM UM FATOR: GERAL


Resoluo da variabilidade total nos
k n
k
k
n
componentes
2
2
2

y ni yi y yij yi
1i 1 4j 14 2 4 4 3 1i 1 4 4 2 4 4 3 1i 1 4j 14 2 4 4 3
i

ij

Soma de Quadrados Total

Soma de Quadrados dos


Tratamentos

Soma de Quadrados do
erros ( ou dos resduos )

SQT (Soma de Quadrados Total):


Variabilidade total.
SQA (Soma de Quadrados dos
Tratamentos): variabilidade entre
tratamentos.
SQE (Soma de Quadrados do Erro):
variabilidade dos erros (ou variabilidade
EXPAM54 - Experimentao e Anlise
dentro dos tratamentos)
Multivariada

44

EXPERIMENTOS COM UM FATOR: GERAL


Razo F para testar a igualdade das
mdias
Quando H0 verdadeira, a razo
SQA

SQE

k 1

k n 1

QMA
QME

um valor da varivel aleatria F que tem


distribuio F com k1 e k(n1) graus de
liberdade. A hiptese nula H0 rejeitada,
f f kquando
1, k n 1
ao nvel de significncia,
f k 1, k n 1
onde
um valor tabelado.
EXPAM54 - Experimentao e Anlise
Multivariada

45

EXPERIMENTOS COM UM FATOR: GERAL


Razo F para testar a igualdade das
mdias
Os clculos para o problema da anlise de
varincia so resumidos na tabela adiante:
Fonte de
Variao

Graus de
Liberdade

Soma de
Quadrados

Tratament
o

k 1

SQA

Erro
(resduo)
Total

k n 1

SQE

kn 1

SQT

Quadrados
Mdios

SQA

SQE

k 1

k n 1

EXPAM54 - Experimentao e Anlise


Multivariada

F calculado
SQA
f

SQE

k 1

k n 1

46

EXPERIMENTOS COM UM FATOR: GERAL

Exemplo:
Teste
a
hiptese
1=2=3=4=5
ao
nvel
de
significncia de 0,05 ( = 5%), para os
dados da absoro das misturas por
vrios tipos de agregados de cimento.
Soluo:
k = n de tratamentos = 5
n = n de repeties de cada
tratamento = 6
EXPAM54 - Experimentao e Anlise
Multivariada

47

EXPERIMENTOS COM UM FATOR: GERAL


Testes de comparaes de mdias
O teste F significativo (ou seja, quando o
valor Fcalculado for superior ao Ftabelado ou, de
forma anloga, quando o valor-p associado
ao valor Fcalculado for um valor muito
pequeno), para mais de dois tratamentos,
nos permite, apenas tirar concluses muito
gerais com relao ao comportamento dos
tratamentos, indicando que entre eles
existem efeitos diferentes sobre a varivel
analisada, mas nada informado sobre quais
os tratamentos efetivamente diferem (em
48
EXPAM54 - Experimentao e Anlise
outras palavras,
quais so os melhores e
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Testes de comparaes de mdias
Na verificao de quais tratamentos
diferem, uma das maneiras o uso de
procedimentos de comparaes mltiplas ou
testes de comparaes de mdias dos
tratamentos. Para faz-lo, o pesquisador
precisa de um mtodo que fornea a
diferena mnima significativa (MDS ou
d.m.s.) entre duas mdias.
Toda vez que o valor absoluto da diferena
entre as duas mdias igual ou maior que a
MDS (ou d.m.s.) as mdias so consideradas
EXPAM54
- Experimentaoao
e Anlise
estatisticamente
diferentes,
nvel 49
de
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


O Teste Tukey
Para obter o valor da diferena mnima
significativa (MDS ou d.m.s.) pelo teste Tukey
basta calcular:

MQE
dms q
n

onde
q = valor tabelado, onde se considera (i) o nvel
de significncia , (ii) o nmero de tratamentos e
(iii) os graus de liberdade do resduo.
MQE =quadrado mdio dos resduos obtido da
ANOVA.
50
EXPAM54 - Experimentao e Anlise
n= nmero de Multivariada
repeties em cada um dos

EXPERIMENTOS COM UM FATOR: GERAL


O Teste Tukey
De acordo com o teste, duas mdias so
estatisticamente diferentes toda vez que o valor
absoluto da diferena entre elas for igual ou maior
do que a MDS (ou d.m.s.)

Exemplo: Considere os dado do exemplo


XXXXXX

EXPAM54 - Experimentao e Anlise


Multivariada

51

EXPERIMENTOS COM UM FATOR: GERAL


Pressupostos do Modelo de ANOVA
Para que uma anlise de varincia (ANOVA)
seja
considerada
vlida,
algumas
pressuposies devem
ser obedecidas:
(i) Os erros das observaes devem ser
independentes;
(ii) Os
erros devem ser normalmente
distribudos;e
(iii) Os erros devem ter varincia comum (ou
seja, muito parecidas) o que chamado
homocedasticidade
.
52
EXPAM54 - Experimentao e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Pressupostos do Modelo de ANOVA
As pressuposies em relao aos erros
podem
ser
resumidas
na
seguinte
expresso:
i .i .d

eij ~ N 0;

Todas esses pressupostos podem ser


verificado, na prtica, realizando-se a
anlise de resduos.
EXPAM54 - Experimentao e Anlise
Multivariada

53

EXPERIMENTOS COM UM FATOR: GERAL


Verificao dos Pressupostos do
Modelo de ANOVA (Anlise de
Resduos)
Homocedasticidade:
A variabilidade entre repeties de um
mesmo tratamento deve ser semelhante aos
outros tratamentos.
Isso pode ser verificado por meio de uma
anlise grfica:
(i) Um box-plot dos tratamentos vs resduos;
ou
(ii) Um grfico de disperso dos tratamentos
vs resduos.
54
EXPAM54 - Experimentao e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Verificao dos Pressupostos do
Modelo de ANOVA (Anlise de
Resduos)
Homocedasticidade: (Exemplo)

EXPAM54 - Experimentao e Anlise


Multivariada

55

EXPERIMENTOS COM UM FATOR: GERAL


Verificao dos Pressupostos do
Modelo de ANOVA (Anlise de
Resduos)
Normalidade (ou gaussianidade):
A normalidade (ou gaussianidade) dos
resduos pode ser verificada graficamente
ou atravs de testes adequados.
Graficamente, pode ser feito o grfico
normal de probabilidades ou, de forma
menos eficaz, por um histograma. J os
testes, que podem ser usados com tal
finalidade pode-se citar, por exemplo, o
teste de Shapiro-Wilks
ou o teste 56
de
EXPAM54 - Experimentao e Anlise
Multivariada

EXPERIMENTOS COM UM FATOR: GERAL


Verificao dos Pressupostos do
Modelo de ANOVA (Anlise de
Resduos)
Normalidade: (Exemplo)

EXPAM54 - Experimentao e Anlise


Multivariada

57

EXPERIMENTOS COM UM FATOR: GERAL


Verificao dos Pressupostos do
Modelo de ANOVA (Anlise de
Resduos)
Independncia:
A independncia dos resduos, pode ser
avaliada, atravs de um grfico dos resduos
vs valores preditos (pelo modelo).

EXPAM54 - Experimentao e Anlise


Multivariada

58

EXPERIMENTOS COM UM FATOR: GERAL


Verificao dos Pressupostos do
Modelo de ANOVA (Anlise de
Resduos)
Independncia: (Exemplo)

EXPAM54 - Experimentao e Anlise


Multivariada

59

ANLISE MULTIVARIADA
60

INTRODUO ANLISE MULTIVARIADA


Conceitos bsicos
um conjunto de tcnicas estatsticas
que tratam dos dados correspondentes s
medidas
de
VRIAS
VARIVEIS
SIMULTANEAMENTE.
Esta, consiste basicamente no estudo
estatstico dos problemas relacionados com:
(i) Inferncias sobre mdias multivariadas;
(ii) Anlise da estrutura de covarincia de
uma matriz de dados;
(iii)Tcnicas de reconhecimento de padro,
classificao e agrupamento.
61
EXPAM54 - Experimentao e Anlise
Multivariada

INTRODUO ANLISE MULTIVARIADA


Conceitos bsicos
No estudo de p 1 variveis, geralmente,
toma-se n observaes de cada varivel
para obter
informaes
sobre
os
parmetros populacionais, relacionamentos
entre variveis, comparaes, etc. Assim,
as medidas registradas so xij com i =
1,2, ..,n (observaes) e j = 1,2, ...,p
(variveis) que podem ser agrupadas na
matriz de dados X(nxp), com n linhas e p
colunas.
EXPAM54 - Experimentao e Anlise
Multivariada

62

INTRODUO ANLISE MULTIVARIADA


Conceitos bsicos

X ( nxp )

x11 x12
x
x
21
22

M M

xn1 xn 2

L
L
O
K

x1 p

x2 p
M

xnp

A matriz de dados X(nxp) contm


observaes
do
vetor
aleatrio
dimensional X = [X1, X2, .... , Xp].
EXPAM54 - Experimentao e Anlise
Multivariada

n
p63

INTRODUO ANLISE MULTIVARIADA


Exemplo (1)
Uma amostra aleatria composta por seis
(6) alunos de um curso de engenharia
ambiental foi observada a fim de avaliar
suas notas em algumas disciplinas. Seja a 1
varivel a nota do aluno em Clculo I e a 2
varivel a nota do aluno em Fsica I. Assim,
seja o vetor aleatrio X = [X1 X2] cujas
componentes so as variveis aleatrias
(v.a.):
X1 (nota em Clculo I) e X2 (nota em Fsica
64
EXPAM54 - Experimentao e Anlise
I).
Multivariada

INTRODUO ANLISE MULTIVARIADA


Exemplo (1)
A matriz de dados :

X nxp X 6 x 2
Notas do
5 aluno

80
23

75

55
70

89

75

14
80

75
58

87

Notas de
Clculo I
Notas de
Fsica I

EXPAM54 - Experimentao e Anlise


Multivariada

65

INTRODUO ANLISE MULTIVARIADA


Exemplo (2)
Uma amostra aleatria composta por
quatro (4) pontos de coleta em um rio foi
observada a fim de avaliar o nvel de
poluio do mesmo. Seja a 1 varivel o pH
da amostral observada, a 2 varivel a
concentrao de Pb e a 3. Varivel a
colorao da gua (1 = incolor, 2 = turva).
Assim, seja o vetor aleatrio X = [X1 X2 X3]
cujas componentes so as variveis
aleatrias (v.a.):
66
X1 (pH da amostra),
X2- Experimentao
(concentrao
EXPAM54
e Anlise de Pb)
Multivariada

INTRODUO ANLISE MULTIVARIADA


Exemplo (2)
A matriz de dados :

X nxp X 4 x 3

Valores
do 2.
Ponto
amostrad

7
6,8

6,9

7,1

10
12
15
12

1
0

Concentra
o de Pb

Colora
o
pH da
amostra

EXPAM54 - Experimentao e Anlise


Multivariada

67

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Vetor: Um arranjo x de nmeros reais x1,
x2, .... , xp chamado vetor e escrito
como x1

x
2

x
M


x p

ou

x ' x1

x2 L

EXPAM54 - Experimentao e Anlise


Multivariada

x p

68

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Vetor:
Um vetor pode ter o seu comprimento
contrado
ou
aumentado
quando

multiplicado por uma constante c, cx= [cx1


cx2 ... cxp].
x1 y1
x1 da
y1 seguinte
feita
A adio de vetores
x y

forma:
x2 y2
2
2

q x y

x p

M
M

x p y p
y p

EXPAM54 - Experimentao e Anlise


Multivariada

69

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Produto interno: O produto interno dos
vetores x e y de dimenso p definido por:
p

x y y ' x x ' y xi yi (escalar )


i 1

Comprimento (ou norma): O comprimento


ou norma de um vetor p-dimensional x
definido como a raiz quadrada do produto
interno do vetor por ele mesmo, ou seja,

x x ' x x x ... x
2
1

2
2

EXPAM54 - Experimentao e Anlise


Multivariada

2
p
70

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo: Dados os vetores x= [2 3 4] e y=
[5 6 7], pede-se:
a) o vetor 2x;
b) o vetor soma x + y;
c) o comprimento ou norma de cada um dos
vetores;
d) a norma de cada um dos vetores;
e) A norma quadrtica de cada um dos
vetores
e) o ngulo entre os dois vetores.
EXPAM54 - Experimentao e Anlise
Multivariada

71

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Matriz: Uma matriz A de ordem (n x p)
um arranjo retangular de nmeros reais
formado por n linhas e p colunas. Quando n
= p a matriz chamada de matriz quadrada.

B( nxp )

b11 b12
b
b
21
22

M M

bn1 bn 2

L
L
O
L

EXPAM54 - Experimentao e Anlise


Multivariada

b1 p

b2 p
M

bnp

72

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Matriz Transposta: a matriz transposta, A, de
A(nxp) formada quando se troca as linhas
pelas colunas, obtendo-se A de ordem p x n.
Matriz
Simtrica: quando a matriz A
formada de modo que A = A, ento ela
chamada de simtrica.

EXPAM54 - Experimentao e Anlise


Multivariada

73

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Matriz Inversa: a matriz quadrada A de
ordem pxp admite inversa representada por
A-1 de ordem (pxp)
se existe uma matriz A-1 tal que AA-1= A1
A= Ip, onde Ip a matriz identidade de
ordem p com 1s na diagonal principal e zeros
fora dela.
Observao: Nem sempre a inversa existe,
mas um mtodo simples para saber se uma
matriz A admiteEXPAM54
inversa
atravs
seu
- Experimentao
e Anlise do 74
Multivariada

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo(1): Considere a matriz A adiante:

3 2
A

4
1

(a) Mostre que A admite inversa.


(b) Calcule a inversa de A.

EXPAM54 - Experimentao e Anlise


Multivariada

75

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo(2): Considere a matriz B adiante:
0
4 0 0

0
0 23 0
B

0 5
0
0
0
0 0 2

(a) Mostre que B admite inversa.


(b) Calcule a inversa de B.
EXPAM54 - Experimentao e Anlise
Multivariada

76

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Matriz Ortogonal: uma matriz quadrada A
chamada de ortogonal quando suas linhas
consideradas
como
vetores
so
mutuamente perpendiculares (ortogonais) e
tm comprimentos unitrios, ou seja:
1
e
A' A
A' A I

EXPAM54 - Experimentao e Anlise


Multivariada

77

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo: Mostre que a matriz A adiante
ortogonal:

1
2
1

1
2

1
2

EXPAM54 - Experimentao e Anlise


Multivariada

78

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Autovalores e autovetores:
Uma matriz quadrada A dita ter um
autovalor (eigenvalue) , com correspondente
autovetor (eigenvector) e 0, se Ae=e.
Seja A uma matriz quadrada simtrica de
ordem (k x k). Ento A tem k pares de
autovalores e autovetores, denominados

1 , e1 , 2 , e2 ,...., k , ek

EXPAM54 - Experimentao e Anlise


Multivariada

79

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Autovalores e autovetores:
Obs: Os autovetores podem ser escolhidos de
modo a terem o comprimento igual a 1, ou
seja, ee=1. Isto chama-se padronizar os
autovetores.
RESULTADO: Seja A(k x k) uma matriz e I(k x k)
a matriz identidade, ento os escalares 1,
2, ...., k satisfazendo a equao det(A I)
= 0 so os autovalores de A.
EXPAM54 - Experimentao e Anlise
Multivariada

80

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Autovalores e autovetores: Uma matriz
quadrada A dita ter um autovalor
(eigenvalue)
,
com
correspondente
autovetor (eigenvector) e 0, se Ae=e.
Seja A uma matriz quadrada simtrica de
ordem (k x k). Ento A tem k pares de
autovalores e autovetores, denominados

1 , e1 , 2 , e2 ,...., k , ek
EXPAM54 - Experimentao e Anlise
Multivariada

81

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo (1): Determine os autovalores e
autovetores das matrizes adiante.

1
a) A
1

0
3

2 1
B b)

1 2

3
C c)
1

EXPAM54 - Experimentao e Anlise


Multivariada

1
3

82

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matrizes e Vetores Aleatrios


Forma quadrtica: Uma forma quadrtica
Q(x) nas p variveis x1, x2, ..., xp definida
por Q(x) = xAx onde x= [x1, x2, ..., ,xp] e
A(pxp) uma matriz quadrada e simtrica.
p
p
A forma quadrtica
pode
ser
escrita
como:

Q x x Ax
a xx

i 1 j 1

ij i

EXPAM54 - Experimentao e Anlise


Multivariada

83

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matrizes e Vetores Aleatrios


Matriz positiva definida: a matriz A positiva
definida se xAx > 0, x 0.
Matriz positiva semi-definida: a matriz A
positiva semi-definida ou no-negativa se
xAx 0, x 0.

EXPAM54 - Experimentao e Anlise


Multivariada

84

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo:Escrever
3
Q( x) x1 x2
1

polinmio.

a forma quadrtica
1 x1
como um
3 x
2

EXPAM54 - Experimentao e Anlise


Multivariada

85

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matrizes e Vetores Aleatrios


Teorema da decomposio espectral: Seja A(k x
k) uma matriz simtrica . Ento, A, pode ser
k , ek
expressa em termos de seus pares de
autovalores-autovetoresk

e
e
iii
como:
i 1

P( k x k ) e1 e 2 L

ek

Matriz
ortogonal, ou
seja, P=P-1

(k x k )

1 0 L
0 L
2

M M O
0

EXPAM54 - Experimentao e Anlise


Multivariada

0
0

k
86

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo: Decomponha as matrizes adiante
utilizando a decomposio espectral.

2 1
a) B

1 2

3 1
Cb)

1 3

EXPAM54 - Experimentao e Anlise


Multivariada

87

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matrizes e Vetores Aleatrios


Matriz raiz quadrada: Seja (k x k)1/2 a matriz
diagonal com
os
k autovalores i na diagonal (i
1
2k).
P Amatriz
i ei ei
= 1, 2, P...,

i 1
1
chamada de matriz raiz
2
quadrada e representada por

EXPAM54 - Experimentao e Anlise


Multivariada

88

LGEBRA MATRICIAL E VETORES ALEATRIOS

lgebra Matricial Reviso


Exemplo: Calcule a matriz raiz quadrada das
matrizes fornecidas adiante:

2 1
a) B

1 2

3 1
Cb)

1 3

EXPAM54 - Experimentao e Anlise


Multivariada

89

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Um vetor aleatrio o vetor cujos
elementos so variveis aleatrias e de
modo semelhante uma
matriz aleatria a matriz cujas entradas
so variveis aleatrias.
Relembrando...: Uma varivel aleatria
uma funo que associa um nmero real a
cada elemento de um espao amostral.
EXPAM54 - Experimentao e Anlise
Multivariada

90

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Vetor mdio (populacional): de um vetor
aleatrio X=[X1, X2, ..., Xp] o vetor :
1

2

M

p

ou

1 2 L

Onde i (i = 1, 2, ..., p) so as mdias


populacionais (esperanas) das variveis Xi
(i = 1, 2, ..., p).
EXPAM54 - Experimentao e Anlise
Multivariada

91

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Matriz
de
varincia-covarincia
(populacional): de um vetor aleatrio
X=[X1, X2, ..., Xp] a matriz
: L


11

21

12

1p

22
2 p
E X X
M M O
M

p1
p2
pp

Onde ij (i, j = 1, 2, ..., p) so as covarincias


populacionais entre as variveis Xi e Xj (i, j =
92
EXPAM54 - Experimentao e Anlise
1, 2, ..., p).
Multivariada

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Matriz de correlao (populacional): de
um vetor aleatrio X=[X1, X2, ..., Xp] a
matriz : 1 12 L 1 p

1 L
21

M M O

p1 p 2 L

2 p
M

ij

ij

ii jj

Onde ij (i, j = 1, 2, ..., p) so as correlaes


populacionais entre as variveis Xi e Xj (i, j =
93
EXPAM54 - Experimentao e Anlise
1, 2, ..., p).
Multivariada

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Matriz desvio-padro (populacional): de
1
um vetor aleatrio X=[X1, XV2, 2 ..., Xp] a
matriz
:
11

0
M

22 L
M O

0
M

pp

EXPAM54 - Experimentao e Anlise


Multivariada

94

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Observaes:
(a) facilmente verificado1que:
1
1
1
1
2
2
e

V
2
2
V V

(b) As matrizes de varincia-covarincia,


correlao
e
raiz-quadrada
so
simtricas!!.

EXPAM54 - Experimentao e Anlise


Multivariada

95

LGEBRA MATRICIAL E VETORES ALEATRIOS

Matriz e Vetor Aleatrio


Exemplo: Calcule a matriz de correlao a
partir da matriz de varincia-covarincia
fornecida adiante:

4 1 2

1 9 3
2 3 25

EXPAM54 - Experimentao e Anlise


Multivariada

96

INTRODUO ANLISE MULTIVARIADA


Estatsticas descritivas
multivariadas

X ( nxp )

x11 x12
x
x
21
22

M M

xn1 xn 2

L
L
O
K

x1 p

x2 p
M

xnp

1.
Observao
(multivariada
)

n-sima
observao
(multivariada)

A matriz de dados X(nxp) contm


observaes
do
vetor
aleatrio
dimensional X = [X1, X2, .... , Xp].
EXPAM54 - Experimentao e Anlise
Multivariada

n
p97

LGEBRA MATRICIAL E VETORES ALEATRIOS

Estatsticas descritivas
multivariadas
Vetor
de mdias amostrais
( ):
X
Dada a matriz X(n x p)= xij (i = 1, 2, ..., n
observaes) e (j = 1, 2, ..., p variveis), a
Xj
mdia amostral
da j-sima varivel
p
dada por:
X ij
Xj

i 1

O vetor de
dado por:
X mdias
X 1 X 2 amostrais
L X p
EXPAM54 - Experimentao e Anlise
Multivariada

98

LGEBRA MATRICIAL E VETORES ALEATRIOS

Estatsticas descritivas
multivariadas
Matriz
de
varincia-covarincia
amostral (S):
Dada a matriz X(n x p)= xij (i = 1, 2, ..., n
X i e (jX k= 1, 2, ..., p variveis), a
observaes)
covarincia amostral
entre as variveis
1 n
sik
X ji X i X jk X k

e
dada por:
n 1 j 1

Observao: quando i=k, a covarincia


chamada de varincia.
99
EXPAM54 - Experimentao e Anlise
Multivariada

LGEBRA MATRICIAL E VETORES ALEATRIOS

Estatsticas descritivas
multivariadas
Matriz
de varincia-covarincia amostral
(S):
A matriz de varincia-covarincia
amostral S
s11 s12 L s1 p
dada por:
s
s
L s
S

21

22

M M O

s p1 s p 2 L

s pp
2p

Observao: A matriz de varincia-covarincia


sempre quadrada e simtrica.
EXPAM54 - Experimentao e Anlise
Multivariada

100

LGEBRA MATRICIAL E VETORES ALEATRIOS

Estatsticas descritivas
multivariadas
Matriz
de correlao amostral (R):
Dada a matriz X(n x p)= xij (i = 1, 2, ..., n
observaes) e (j = 1, 2, ..., p variveis), a
X k rik entre as variveis
Xi
correo amostral
sik
e
dada por:
rik
sii skk
Observao: quando i=k, a correlao
igual a 1.
EXPAM54 - Experimentao e Anlise
Multivariada

101

LGEBRA MATRICIAL E VETORES ALEATRIOS

Estatsticas descritivas
multivariadas
Matriz
de varincia-covarincia amostral
(R):
A matriz de correlao
R dada por:
L r
1 r amostral
12

r
1 L
21

R
M M O

rp1 rp 2 L

1p

r2 p
M

Observao: A matriz de correlao sempre


quadrada e simtrica.
EXPAM54 - Experimentao e Anlise
Multivariada

102

LGEBRA MATRICIAL E VETORES ALEATRIOS

Exemplo (Estatsticas descritivas


multivariadas):
Uma
amostra aleatria composta por trs
(3) alunos de um curso de engenharia
ambiental foi observada a fim de avaliar
suas notas em algumas disciplinas. Seja o
vetor aleatrio X = [X1 X2] cujas
componentes so as variveis aleatrias
80 75 em
(v.a.): X1 (nota em Clculo I) e X2 (nota
23 14
Fsica I). Calcule:

(i) o vetor de mdias amostrais,


75 58
(ii) a matriz de covarincias amostrais,
103
EXPAM54 - Experimentao
e Anlise
(iii) a matriz de correlaes
amostrais.
Multivariada

LGEBRA MATRICIAL E VETORES ALEATRIOS

Exemplo: (continuao)
A matriz de dados :

80 75
23 14

75 58

EXPAM54 - Experimentao e Anlise


Multivariada

104

Anlise Multivariada

DISTRIBUIO NORMAL
MULTIVARIADA
105

DISTRIBUIO NORMAL MULTIVARIADA


Introduo
Assim como no caso univariado, todo vetor
aleatrio p-variado tem seus valores gerados
por um mecanismo estocstico. A mais
conhecida das distribuies de probabilidade
multivariadas a normal p-variada.

EXPAM54 - Experimentao e Anlise


Multivariada

106

DISTRIBUIO NORMAL MULTIVARIADA


Introduo
O
reconhecimento
da
distribuio
de
probabilidades do vetor X torna possvel
propor testes estatsticos e procedimentos de
estimao para os parmetros dessas
distribuies,
utilizando-se
recursos
de
inferncia estatstica (por exemplo, intervalos
de confiana e testes de hipteses).

EXPAM54 - Experimentao e Anlise


Multivariada

107

DISTRIBUIO NORMAL MULTIVARIADA


Apresentao da Normal
Multivariada
Definio (distribuio normal p-variada): No
caso de um vetor aleatrio de dimenso p, ou
seja, X=[X1,X2,...,Xp] diz-se que este vetor
tem uma distribuio normal p-variada, e
denota-se por X~Np(,), se a funo de
1

x por:
1 x
densidade de X
for
dada

1
2

fX x

i , xi (i 1, 2,.., p), positiva definida


EXPAM54 - Experimentao e Anlise
Multivariada

108

DISTRIBUIO NORMAL MULTIVARIADA


Mtodos prticos de verificao da
hiptese de normalidade multivariada:
Grfico
qui-quadrado
Pela teoria
da distribuio normal multivariada,
tem-se que, quando o nmero de elementos
amostrais de n grande, a varivel
2
1
2

d X X S X X , j 1, 2,..., n ~
onde

Xj :representa os valores observados das pvariveis no


Distncia
X j-simo indivduo.
Quadrtica
:vetor de mdias amostrais.
Generalizada
S: matriz de covarincias amostrais.
EXPAM54 - Experimentao e Anlise
Multivariada

109

DISTRIBUIO NORMAL MULTIVARIADA


Mtodos prticos de verificao da
hiptese de normalidade multivariada:
Grfico
qui-quadrado
Portanto,
pode-se comparar os valores das
distncias dj2 com as respectivas ordenadas
dos percentis da distribuio qui-quadrado, o
que d origem ao chamado grfico quiquadrado (Q-Q plot), cujos passos de
construo so descritos a seguir:

EXPAM54 - Experimentao e Anlise


Multivariada

110

DISTRIBUIO NORMAL MULTIVARIADA


Mtodos prticos de verificao da
hiptese de normalidade multivariada:
Grfico
Passo
1:qui-quadrado
Calcule as distncias d 2 para todos
j

os elementos da amostra e ordene estes


valores em ordem crescente, ou seja, d(1)2
d(2)2 ... d(n)2,onde d(j)2 representa a j-sima
estatstica de ordem.

EXPAM54 - Experimentao e Anlise


Multivariada

111

DISTRIBUIO NORMAL MULTIVARIADA


Mtodos prticos de verificao da
hiptese de normalidade multivariada:

j 1
Grfico qui-quadrado
2
d2 ;2
Passo 2: Faa o grfico de pares
j p
n


, j 1

p2

onde
j 1

2
ordem
100

representa o percentil de

da distribuio qui-quadrado com


p graus de liberdade.
EXPAM54 - Experimentao e Anlise
Multivariada

112

DISTRIBUIO NORMAL MULTIVARIADA


Mtodos prticos de verificao da
hiptese de normalidade multivariada:
Grfico
qui-quadrado

Quando
a normalidade coerente com os

dados amostrais, este grfico deve resultar


em algo prximo a uma reta.
Curvas diferentes da reta indicam falta de
normalidade.
Esse grfico tambm til para a
identificao
de valores
discrepantes
(outliers) multivariados.
EXPAM54 - Experimentao e Anlise
Multivariada

113

DISTRIBUIO NORMAL MULTIVARIADA


Mtodos prticos de verificao da
hiptese de normalidade multivariada:
Grfico qui-quadrado
Exemplo:
Considerando os dados do exemplo
do slide 63/64, pede-se:
(a) Construa um grfico qui-quadrado
utilizando os dados apresentados.
(b) Os dados provm aproximadamente de
uma populao normal multivariada.
Justifique sua resposta.

EXPAM54 - Experimentao e Anlise


Multivariada

114

DISTRIBUIO NORMAL MULTIVARIADA


Exemplo:

EXPAM54 - Experimentao e Anlise


Multivariada

115

Anlise Multivariada

INFERNCIA SOBRE UM VETOR


MDIO
116

INFERNCIA SOBRE UM VETOR MDIO


A plausibilidade de 0 como um valor
para uma mdia populacional
Considere o problema de determinar se um
multivariada
dado vetor 0 (p x 1) um valor plausvel para o
vetor mdio de uma distribuio normal
multivariada.
Uma generalizao
1natural do caso
2
T

n
X

S
X

0
0
univariado dada por:

X X 1 X 2 L
onde

X p

0 10

20 L

EXPAM54 - Experimentao e Anlise


Multivariada

p 0
117

INFERNCIA SOBRE UM VETOR MDIO


A plausibilidade de 0 como um valor
para uma mdia populacional
multivariada
A estatstica T2 chamada de T2 de
n 1 p
Hotelling.
E,

2
T ~
Fp ,n p
n p
onde Fp, np representa um varivel aleatria F
com p e (n p) graus de liberdade.

EXPAM54 - Experimentao e Anlise


Multivariada

118

INFERNCIA SOBRE UM VETOR MDIO


A plausibilidade de 0 como um valor
para uma mdia populacional
Para
resumir, temos o seguinte. Seja X1, X2,....,
multivariada
Xn uma amostra aleatria de uma populao
Np(,).

n 1 p

1
P n X 0 S X 0
Fp ,n p
Ento:
n p

para quaisquer valores verdadeiros de e .


Aqui
Fp,np() o percentil (100)% superior
de uma distribuio F com p e (n p) graus de
119
EXPAM54 - Experimentao e Anlise
liberdade.
Multivariada

INFERNCIA SOBRE UM VETOR MDIO


A plausibilidade de 0 como um valor
para uma mdia populacional
A
ltima
expresso
fornece
um
multivariada
procedimento para testar as seguintes
hipteses:H 0 : 0 versus H1 : 0
Ao nvel de significncia, rejeitamos H0
n T12 observada:
p

em favor
de H1, se
a
2
1 estatstica
T n X 0 S X 0
Fp ,n p

n p

EXPAM54 - Experimentao e Anlise


Multivariada

120

INFERNCIA SOBRE UM VETOR MDIO


A plausibilidade de 0 como um valor
para uma mdia populacional
Exemplo:
Considere a matriz de dados para
multivariada
uma amostra aleatria de tamanho n = 3 de
uma populao normal
ser
9
6 bivariada
10 6

8 3

Calcule a estatstica T2 para 0=[9 5].


b) Qual a distribuio amostral de T2 nesse
caso?
c) Teste a hiptese H0: =[9 5] vs H1: [9 5]
121
ao nvel de significncia
= 0,05.
EXPAM54 - Experimentao
e Anlise
a)

Multivariada

Anlise Multivariada

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
122

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Considere uma amostra aleatria de
tamanho n1 de uma populao 1 e uma
amostra de tamanho n2 de uma populao 2.

EXPAM54 - Experimentao e Anlise


Multivariada

123

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
As observaes feitas sob p variveis podem ser
arranjadas da seguinte forma:
Estatsticas descritivas
Amostra

Vetor de
mdia
amostrais

(Populao 1)

x11, x12,...,
x1n1

x1

x2

Matriz de
covarincia
amostral

S1

(Populao
2)
OBS: Nessa
notao,
o primeiro ndice (1 ou 2),
x21a, populao
x22,...,
representa
de origem da observao.
S2

x2n2

EXPAM54 - Experimentao e Anlise


Multivariada

124

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Pressupostos com relao estrutura dos dados:
1)

2)

3)

A amostra X11, X12, ...., X1n1 uma amostra


aleatria de tamanho n1 de uma populao
p-variada com vetor de mdias 1 e matriz
de covarincia 1.
A amostra X21, X22, ...., X2n2 uma amostra
aleatria de tamanho n2 de uma populao
p-variada com vetor de mdias 2 e matriz
de covarincia 2.
125
EXPAM54 - Experimentao e Anlise
Alm disso, XMultivariada
11, X12, ...., X1n1 e X21, X22, ....,

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Pressupostos
pequenos:

adicinais

quando

n1

n2

so

Ambas
populaes
soda normais
S1 = matrizas
de covarincia
amostral
multivariadas.
populao 1.
S2 = matrizde
covarincia amostral da
2) Tambm,
1 = 2 = (mesma matriz de
populao 2.
covarincia,
o que chamado de
n1 = tamanho da amostra retirada da
homocedasticidade)
n1 1 S1 1. n2 1 S 2

populao
SP
Quando
1 = 2 = , podemos estimar como:
n2 = tamanho
n1 n2 da
2 amostra retirada da
1)

populao 2.

EXPAM54 - Experimentao e Anlise


Multivariada

126

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
O teste da razo de verossimilhanas de
H0:1 2 = 0

baseado no quadrado da distncia


estatstica T2.
1
Logo,
rejeita-se
H
se

0
1
1
2

T x1 x 2 0
S p
x1 x 2 0 c2
n1 n2

onde a distncia crtica c2 determinada a


2
partir da distribuio
de
uma
estatstica
T
de
127
EXPAM54 - Experimentao e Anlise
duas amostras. Multivariada

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Resultado: Se X11, X12, ...., X1n1 uma amostra
aleatria de tamanho n1 de uma populao normal
Np(1, ) e X21, X22, ...., X2n2 uma amostra aleatria
de tamanho n2 de uma populao1 normal Np(2, ),

1 1
ento,
2

T x 1 x 2 1 2

S p
n1 n2

x 2 1 2

n1 n2 2 p F
distribuda como uma
p , n n p 1
n1 n2 p 1
1

EXPAM54 - Experimentao e Anlise


Multivariada

128

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes

Consequentemente,

P x 1 x 2 1 2

Onde,

1 1
S p

n1 n2

x 2 1 2

n1 n2 2 p

Fp ,n n p 1
n1 n2 p 1
1

EXPAM54 - Experimentao e Anlise


Multivariada

129

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Exemplo:
Testar a hiptese de igualdade de vetores de
mdias de duas variedades de milho (A e B). Para
isso, amostras aleatrias independentes
de
tamanho n1 = 6 e n2 = 5 foram realizadas de
cada variedade e as variveis produtividade
(t/ha), X1, e altura da planta (m), X2, mensuradas.
Os resultados obtidos na amostra realizada esto
apresentados na sequncia:
EXPAM54 - Experimentao e Anlise
Multivariada

130

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Exemplo:
Variedade de Milho A

Variedade de milho B

X1

X2

X1

X2

5,7

2,10

4,4

1,80

8,9

1,90

7,5

1,75

6,2

1,98

5,4

1,78

5,8

1,92

4,6

1,89

6,8

2,00

5,9

1,90

6,2

2,01

EXPAM54 - Experimentao e Anlise


Multivariada

131

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS
Comparao dos vetores mdios de
duas populaes independentes
Exemplo:
Testar a hiptese de igualdade de vetores de
mdias de duas populaes (neste caso
variedades de milho A e B) utilizando T 2 e
considerando um nvel de significncia de 5%.

EXPAM54 - Experimentao e Anlise


Multivariada

132

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA

Objetivos:
Investigar se as populaes tm o mesmo
vetor mdio.
Suposies:
(i) Independncia: as amostras aleatrias
so independentes
(ii) Homocedasticidade: todas as populaes
tm a mesma matriz de covarincia , ou
seja,
1 = 2 = ..... = EXPAM54
g = -Experimentao
(homocedasticidade)
133
e Anlise
Multivariada

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA
(i)
Todas as populaes so normalmente
distribudas:
Populao
Amostra 1:
1:
X1 ~ N(1, )

Populao
2:
X2 ~ N(2, )

Populao
g:
Xg ~ N(g, )

Tamanho: n1
Mdia: X1
Amostra 2:
Tamanho: n2
Mdia: X2
S2
Amostra g:
Tamanho: ng
Mdia: Xg
Sg

Covarincia: S1

Covarincia:

Covarincia:

EXPAM54 - Experimentao e Anlise


Multivariada

134

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA

Hipteses sendo testadas:

H0: 1 = 2 = ... = g
H1: pelo menos uma das mdias i (i = 1, 2.., g) diferente
das demais

Estatstica do teste:

W

B W

(Lambda de
Wilks)

EXPAM54 - Experimentao e Anlise


Multivariada

135

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA

Tabela da MANOVA:
Fontes de
Variao g

n x

i
Tratamentos
i 1
g
Resduos

Total

Graus de
liberdade

g 1

B ni x i x x i x
i 1

ni g
ni i1
i 1
g
ni 1
i 1

Matriz das somas dos


quadrados e produtos
cruzados
g

W ni 1 S i
i 1

B W

EXPAM54 - Experimentao e Anlise


Multivariada

136

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA

Tabela da MANOVA:
onde

g: nmero de grupos (populaes)

ni: tamanho da amostra retirada da i-sima

x
x

i
populao.

vetor

mdio

amostral

da

populao.

EXPAM54 - Experimentao e Anlise


Multivariada

i-sima
137

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA amostral de *:
Distribuio

EXPAM54 - Experimentao e Anlise

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA
Exemplo:
Considere
as
seguintes
amostras
independentes,
respectivamente
das
populaes 1, 2 e 3 que podem ser
consideradas como normais multivariadas com
3 8
mesma matriz
de covarincia .
9 3

1 : 6 2
9 7

0 4
2 :

2
0

1
9

3 :
2 0

2 3

EXPAM54 - Experimentao e Anlise


Multivariada

139

COMPARAO DE VRIAS MDIAS


MULTIVARIADAS

Comparao dos vetores mdios de vrias


populaes independentes (g 2)
MANOVA
Exemplo:
Pede-se:
a) Construa a tabela da MANOVA
b) Calcule o lambda de Wilks *
c) Teste a hiptese de igualdade das mdias.
Use =0,05.

EXPAM54 - Experimentao e Anlise


Multivariada

140

Anlise Multivariada

COMPONENTES PRINCIPAIS
141

COMPONENTES PRINCIPAIS
Objetivos
Explicar

a estrutura de varinciacovarincia de um vetor aleatrio X=[X1,


X2, ..., Xp], composto de p variveis
aleatrias, atravs da construo de
combinaes
lineares
das
variveis
originais.
Reduo do nmero de variveis a
serem avaliadas.

Interpretao

das combinaes lineares


142

EXPAM54 - Experimentao e Anlise


Multivariada

COMPONENTES PRINCIPAIS
Objetivos

Nota:
A
suposio
de
(gaussianidade) NO um
necessrio para que a
componentes
principais
utilizada.

normalidade
pressuposto
tcnica de
possa
ser

EXPAM54 - Experimentao e Anlise


Multivariada

143

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Definio 1: A j-sima componente


principal Yj da matriz (p x p), j = 1, 2, ..., p,
X 1
definida por:
Y j e j X e j1 e j 2 L

X
2
e jp e j1 X 1 ... e jp X p
M

X p

onde ej o j-simo autovetor normalizado


144
EXPAM54 - Experimentao e Anlise
de (p x p)
Multivariada

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

A esperana e a varincia da componente


Yj so respectivamente iguais a:

E[Y j ] E[e j1 X 1 ... e jp X p ] e j11 ... e jp p


V [Y j ] V [e j X ] e jV [ X ]e j e je j j
onde j o j-simo maior autovalor de de
(p x p)
EXPAM54 - Experimentao e Anlise
Multivariada

145

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Ainda,
Cov(Yj, Yk) = 0, j k
ou seja, as componentes principais so no
correlacionadas, ou ortogonais.
Nota: os autovalores so ordenados em
ordem decrescente, ou seja, 1 2 3 ...
p
EXPAM54 - Experimentao e Anlise
Multivariada

146

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Definio 2: A proporo da varincia total


de X que explicada pela j-sima
componente principal Yj da matriz (p x p), j
= 1, 2, ..., p,
por:
V [Y j definida
]
j
j

p
Varincia Total de X tr ()

j 1

onde j o j-simo
autovalor
de
(p x p)
EXPAM54
- Experimentao
e Anlise
Multivariada

147

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Definio 3: A proporo da varincia total


de X que explicada pela k primeiras
componente principal Yj da matriz (p x p), j
k
k
= 1, 2, ..., p,k definida como:
V [Y j ]
j j

j 1
j 1
j 1

p
Varincia Total de X tr ()
j
j 1

onde j o j-simo
autovalor
de
(p x p)
EXPAM54
- Experimentao
e Anlise
Multivariada

148

COMPONENTES PRINCIPAIS
Componentes Principais Extradas da
Matriz de Covarincia ()
Definio 4: Se Y1=e1X, Y2=e2X, ..., Yp=epX
so as componentes principais da matriz de
covarincia (pxp), ento:
e

Yi , X k

ik

kk

i, k 1, 2,..., p

eik

= corresponde a k-

sima componente da iSo os coeficientes de sima


correlao
componenteentre as
tambm, a
componentes principais principal,
Yi e asou variveis
X k.
componente associada a
Aqui (1,e1), (2,e2), ..., (varivel
Xk na os pares de
p,ep) so
autovalores-autovetores componente
de (p x p). principal Yi. 149
EXPAM54 - Experimentao e Anlise
Multivariada

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Nota:
Se as k primeiras componentes principais
explicam
uma
grande
parte
da
variabilidade total do vetor X, pode-se
restringir o foco da ateno apenas ao
vetor aleatrio [Y1, Y2, ..., Yk]

EXPAM54 - Experimentao e Anlise


Multivariada

150

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Pelo Teorema da Decomposio Expectral

1 e1 e1 ... k e k e k k 1 e k 1 e k 1 p e p e p
Mas, se os autovalores k+1, k+2, ..., p so
muito pequenos, ento
k

1 e1 e1 ... k e k e k i ei ei
i 1

EXPAM54 - Experimentao e Anlise


Multivariada

151

COMPONENTES PRINCIPAIS
Componentes Principais
Matriz de Covarincia ()

Extradas

da

Exemplo (1): Considere um vetor aleatrio


X=[X1 X2] que possui a seguinte matriz
de covarincia:
5 2

2 2

a)
b)

Determine as componentes principais


populacionais Y1 e Y2 a partir de .
Calcule a proporo da varincia
152
EXPAM54 - Experimentao e Anlise
populacional Multivariada
total explicada pela 1.

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)

Na prtica, desconhecida e precisa


ser estimada atravs de dados amostrais
coletados (em geral, estimada pela
matriz S).

EXPAM54 - Experimentao e Anlise


Multivariada

153

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)

Sejam
os autovalores da
1 , 2 ,..., p
, e 2e,...,
e p
matrize1S
sejam
os
autovalores correspondentes normalizados.
Ento, a j-sima componente principal
amostral estimada definida como:

Yj e j X e j1 X 1 ... e jp X p

j 1, 2,..., p

EXPAM54 - Experimentao e Anlise


Multivariada

154

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)

Algumas propriedades das componentes


principais so apresentadas a seguir:
Propriedade 1:

A varincia estimadaYde
i

igual
i a

Yi Yk
Propriedade 2:
A covarincia entre as componentes
principais
e
155
- Experimentao
e Anlise
nula, para EXPAM54
todo
i

k,
ou
seja,
as
Multivariada

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)

Propriedade 3:
A varincia total explicada pela j-sima
componente principal
amostral
dada
Yj
por:
V [Yj ]
j
j

p
Varincia Total de X tr (S )

j 1

EXPAM54 - Experimentao e Anlise


Multivariada

156

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)

Propriedade 4:
A correlao entre a j-sima componente
principalYamostral
e
a
k-sima
varivel
j
Xk dada por:
rY , X
j

e jk j
skk

j , k 1, 2,..., p

EXPAM54 - Experimentao e Anlise


Multivariada

157

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)
Exemplo 1:

EXPAM54 - Experimentao e Anlise


Multivariada

158

COMPONENTES PRINCIPAIS
Estimao das Componentes Principais:
Matriz de Covarincia Amostral (S)
Exemplo 2:

EXPAM54 - Experimentao e Anlise


Multivariada

159

Anlise Multivariada

ANLISE FATORIAL
160

ANLISE FATORIAL
Definio:

Tcnica de estatstica multivariada usada


para descrever a estrutura de covarincia de
um vetor aleatrio em funo de poucas,
mas no observveis, variveis aleatrias
chamadas fatores.

EXPAM54 - Experimentao e Anlise


Multivariada

161

ANLISE FATORIAL
O Modelo Fatorial Ortogonal:

X 1 1
X 2 2
M
X p p

l 11 F1 l 22 F2 ... l 1m Fm 1
l 21 F1 l 22 F2 ... l 1m Fm 2
M
M
l p1 F1 l p 2 F2 ... l pm Fm p

ou em notao matricial

X p x 1 p x 1 L p x m F m x 1 p x 1

EXPAM54 - Experimentao e Anlise


Multivariada

162

ANLISE FATORIAL
O Modelo Fatorial Ortogonal
(Pressupostos):

EXPAM54 - Experimentao e Anlise


Multivariada

163

ANLISE FATORIAL
Estimao do nmero m de fatores
comuns:
O primeiro passo para conduzir a anlise
fatorial estimar a matriz de correlao
terica , atravs da matriz de correlao
amostral R.
Para a estimao de m, bastar extrair-se
os autovalores da matriz R e orden-los em
ordem decrescente. Observa-se, ento, quais
autovalores so os mais importantes em
termos de grandezas numricas, utilizando
164
EXPAM54 - Experimentao e Anlise
os seguintes critrios:
Multivariada

ANLISE FATORIAL
Estimao do nmero m de fatores
comuns:
Kaiser (1958).m

quantidade i 1

Proporo da variao explicada

Teste Scree.

EXPAM54 - Experimentao e Anlise


Multivariada

165

ANLISE FATORIAL
Estimao do nmero m de fatores
comuns:
Teste Scree.

EXPAM54 - Experimentao e Anlise


Multivariada

166

ANLISE FATORIAL
Comunalidade e Varincia Especfica:

Estimao das matrizes L e


- Mtodo das Componentes Principais

EXPAM54 - Experimentao e Anlise


Multivariada

167

ANLISE FATORIAL
Exemplo:
Numa pesquisa de mercado feita para avaliar
a aceitao pelo consumidor de um novo
produto
comestvel,
observou-se
uma
amostra de 200 consumidores. Cada
consumidor foi convidado a dar uma nota de
1 a 5 aos seguintes atributos do produto:
(X1) sabor, (X2) aroma, (X3) cor, (X4)
textura, (X5) utilidade, (X6) facilidade de
encontr-lo para compra (locais de compra) e
(X7) embalagem. Com base na respostas dos
questionrios, obteve-se
a seguinte matriz168
de
EXPAM54 - Experimentao e Anlise
Multivariada

ANLISE FATORIAL
Exemplo:

0,103

0, 090

0,163

R
0, 087
0, 050 0, 037 0,138 0, 029
1
0,833 0, 693

1
0,530
0, 056 0, 046 0, 096 0, 045 0,833
0,103 0, 090 0,163 0, 087 0, 693 0,530

1
0,969 0,801 0,960 0, 050
0,969
1
0, 711 0,991 0, 037
0,801 0, 711
1
0, 696 0,138
0,960 0,991 0, 696
1
0, 029

0, 056
0, 046
0, 096
0, 045

EXPAM54 - Experimentao e Anlise


Multivariada

169

ANLISE FATORIAL
Exemplo:
Pede-se:
a) Calcule os autovalores e autovetores da
matriz R, utilizando o software estatstico
R.
b) Defina o nmero m de fatores a serem
extrados utilizando o critrio de Kaiser.
c) Estime a matriz dos carregamentos L,
para o nmero de fatores m definido em
(b), usando o mtodo das componentes
principais.
d) Utilizando a matriz
L, obtida em (c) calcule
170
EXPAM54 - Experimentao e Anlise
Multivariada

ANLISE FATORIAL
Exemplo:
Pede-se:
e) Utilizando a matriz L, obtida em (c) calcule
as varincias especficas.
f) Calcule a proporo da variabilidade total
dos dados que explicada por cada um
dos m fatores extrados, onde m o valor
obtido em (b).
g) Construa uma tabela onde conste: (i) os
carregamentos fatoriais estimados, (ii) as
comunalidades,
(iii)
as
varincias
especficas (iv)
proporo da variabilidade
171
EXPAM54 - Experimentao e Anlise
Multivariada

ANLISE FATORIAL
Exemplo:
Pede-se:

R LZ LZ
h) Calcule a matriz residual
Z
i) Desenhe um scree-plot.
j) Se possvel, interprete cada
fatores extrados no item (c).

um

EXPAM54 - Experimentao e Anlise


Multivariada

dos

172

ANLISE FATORIAL
Adequabilidade do modelo Fatorial:
A anlise fatorial no adequada para ser
usada em qualquer conjunto de dados. Para
verificar a adequabilidade do modelo fatorial,
utiliza-se alguns testes e medidas, sendo os
mais difundidos na literatura:
Teste de Esfericidade de Bartlett
Critrio de Kaiser-Meyer-Olkin (KMO)
Teste Scree.
EXPAM54 - Experimentao e Anlise
Multivariada

173

ANLISE FATORIAL
Algumas aplicaes de Anlise Fatorial
Ranqueamento
Validao instrumento (questionrio) de
pesquisa (dimensionalidade)
- Exemplo: SERVQUAL

EXPAM54 - Experimentao e Anlise


Multivariada

174

Anlise Multivariada

ANLISE DISCRIMINANTE
175

ANLISE DISCRIMINANTE
Objetivos:
(i) Dados dois ou mais grupos (pessoas, objetos,
itens,
etc)
discriminam
(diferenciam,
separam)
esses
grupos
atravs
da
ANOVA/MANOVA. Por exemplo, a varivel
altura uma varivel importante para
discriminar entre homens e mulheres.
(ii) Determinadas as variveis que melhor
discriminam os grupos, utiliz-los para criar
funes discriminantes que sero utilizadas
para colocar novos indivduos, objetos ou
observaes no grupo mais adequado (a
funo discriminante
otimiza a ealocao)
. 176
EXPAM54 - Experimentao
Anlise
Multivariada

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Basicamente, o problema consiste em separar
duas classes de objetos ou fixar um novo objeto a
uma das duas classes. Assim, interessante
alguma
exemplificao.
Variveis medidas (componentes
Populaes
1 e 2
de X)

1 Aprovao ou
- Nota no vestibular, nota em clculo
reprovao na disciplina I, nmero de disciplinas cursadas sem
de Clculo IV.
reprovao, etc.
2 Gnero de uma
pessoa (masculino ou
feminino)

- Altura, peso, permetro do bceps,


permetro do trax, comprimento do
p, etc.

3 Comprador de um
novo produto e no
comprador.

- Escolaridade, renda, tamanho da


famlia, quantidade de filhos, estado
civil, etc.
177
EXPAM54
- Experimentao
e Anlise
4 Pessoa de alto risco
- Renda,
idade, nmero
de cartes
Multivariada

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
comum denominar as classes (populaes) de
1 e 2, e os elementos separados (ou classificados
ou discriminados) com base nas medidas das p
variveis aleatrias que so associadas com
vetores do tipo:
X X 1 X 2 L X p
onde as variveis Xi so as medidas
caractersticas investigadas nos objetos.

EXPAM54 - Experimentao e Anlise


Multivariada

das

178

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Os valores observados de X podem diferir de
uma classe (grupo ou populao) para outra,
sendo que a totalidade dos valores da 1. Classe
a populao dos valores de X para 1 e aqueles da
2. Classe, os valores de X para 2.
A ideia de Fisher foi transformar as observaes
multivariadas Xs nas observaes univariadas ys
tal que os ys das populaes 1 e 2 sejam
separadas tanto quanto possvel. Fisher teve a
ideia de tomar combinaes lineares de X para
criar os ys, dado que as combinaes lineares so
funes de X, no entanto, de fcil clculo
179
EXPAM54 - Experimentao e Anlise
matemtico.
Multivariada

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
A Funo Discriminante Linear de Fisher (FDL)
transforma as populaes univariadas, tais que
as
mdias
das
populaes
univariadas
correspondentes so separadas tanto quanto
possvel relativamente a varincia populacional,
considerada comum. Assim, tomamos
Y0= (1 2) 1X0
como o valor da FDL de Fisher para uma
observao X0 e consideramos o ponto mdio m
entre as duas populaes
univariadas,
180
EXPAM54 - Experimentao e Anlise
Multivariada

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER

1
m 1 2 1 2
2
mdio)

(ponto

Desta forma, tem-se a regra de classificao:

Aloca-se X0 em 1 se Y0 m

Aloca-se X0 em 2 se Y0 < m
EXPAM54 - Experimentao e Anlise
Multivariada

181

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Frequentemente, os parmetros 1, 2 e so
desconhecidos.
Ento, supondo que tem-se n1 observaes do
vetor aleatrio X1 da populao 1
X 1 X 11 X 21 L X p1
e n2 observaes do vetor aleatrio X da
populao X
2, X
2
12 X 22 L X p 2

EXPAM54 - Experimentao e Anlise


Multivariada

182

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
os
resultados
amostrais
para
aquelas
quantidades
so:
n1
n1
1
1

X 1 X i1 S1
X

X
X

X
i1 1 i1 1
n1 i 1
n1 1 i 1

1
X2
n2

n2

X i2
i 1

1 n2
S2
X i2 X 2

n2 1 i 1

i2

X2

Mas, assumindo que as matrizes de covarincias


so iguais, temos: n1 1 S1 n2 1 S 2
Sp
n1 n2 2
EXPAM54 - Experimentao e Anlise
Multivariada

183

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Consequentemente, a Funo Discriminante
Linear de Fisher Amostral dada por:
y c X X X S 1 X

E, a estimativa do ponto mdio entre as duas


y1 c X 1
y2 c X 2
mdias amostrais univariadas
e
dada1 por:
1

m y1 y2 X 1 X 2 S p1 X 1 X 2
2
2

EXPAM54 - Experimentao e Anlise


Multivariada

184

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Finalmente, a regra de classificao a
seguinte:

m
Aloca-se X0 em 1 se Ym
0
Aloca-se X0 em 2 se Y0 <

EXPAM54 - Experimentao e Anlise


Multivariada

185

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Exemplo 1:
Seja um estudo onde se pretende detectar
portadores de Hemofilia a. A fim de se
construir um procedimento para detectar
portadores de Hemofilia
A, amostras de
sangue so analisadas em dois grupos de
mulheres e medidas as variveis: X1 =
log10(atividade AHF) e X2 = log10 (antgeno
AHF). Os dados esto na tabela T11.8 do livro
do Johnson. O primeiro grupo composto por
n1 = 30 mulheres selecionadas de uma
186
EXPAM54 - Experimentao e Anlise
populao de Multivariada
mulheres que no so

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Exemplo 1 (continuao):
O segundo grupo de n2 = 22 mulheres foi
selecionado
de
uma
populao
de
conhecidas portadoras da deficincia (irms
de hemoflicos, mes com mais de um filho
hemoflico e mes com um filho hemoflico e
outro hemoflico relativo). Esse o grupo dos
portadores obrigatrios. Os resultados so
131,158 90, 423
fornecidos
0, 0065adiante:

0, 2483
1
S
x1

0,
039

x2

0,
0262

90, 423 108,147

EXPAM54 - Experimentao e Anlise


Multivariada

187

DISCRIMINAO ENTRE DUAS POPULAES


MTODO DE FISHER
Exemplo 1 (continuao):
a) Calcule a Funo Discriminante Linear de
Fisher amostral.
b) Calcule o ponto mdio das duas mdias
amostrais.
c) Sejam as medidas x1 = 0,210 e x2 =
0,044, verifique em qual das populaes
alocado o indivduo com estas medidas
(normal ou portadora).

EXPAM54 - Experimentao e Anlise


Multivariada

188

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER
Fisher tambm props uma extenso do
seu mtodo para vrias populaes.
A
proposta
primria
da
anlise
discriminante
de
Fisher

separar
populaes. No entanto, ela pode ser usada
tambm para classificao.

EXPAM54 - Experimentao e Anlise


Multivariada

189

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER

1 , 2 ,..., s 0os s min(g 1, p)


Sejam

autovalores no-nulos de W1B ee


1 , e 2 ,..., e s
os
autovetores
correspondentes
e S p e 1
(escalonados
tal que
). Ento, o vetor dos coeficientes
que maximiza a razo:
g

x
x

i
i

a Ba
i 1

g ni

a W a a
xij x i xij x i a
i 1 j 1

EXPAM54 - Experimentao e Anlise


Multivariada

190

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER

a1 e1
dado por
. A combinao linear
a1 x
linear
a 2 e 2 de primeira discriminante
chamada
x e x

amostral.a 2 Ax escolha
produz
k
k a
segunda discriminante amostral,
e,
continuando, obtemos
, a ksima discriminante amostral (k s).

EXPAM54 - Experimentao e Anlise


Multivariada

191

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER
Procedimento de classificao de Fisher
baseado nas discriminantes amostrais:

Aloca-se x0 a k se

y
j 1

a x x

j
k
j
kj

j 1
2

a j
para todo i k, onde
y kj 190
a j x ke
slide

a x x

j 1 j
i

como definido no
e r s.

EXPAM54 - Experimentao e Anlise


Multivariada

192

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER
Exemplo:
Considere observaes de p=2 variveis e
g=3
populaes.
Assumindo
que
as
populaes tm uma matriz de covarincia
comum , obtenha as discriminantes de
Fisher.

1 (n1 3)

2 (n2 3)

3 (n3 3)

2 5
0 3

1 1

0 6
2 4

1 2

1
0

2
0
1 4

EXPAM54 - Experimentao e Anlise


Multivariada

193

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER
Exemplo (continuao):
x1 x 2 x 3
a)Calcule os vetores de mdias amostrais
x.
,
e
b) Calcule
, ou seja, o vetor de mdias
global.
c) Calcule a matriz B.
d) Calcule as matrizes S1, S2, S3 e Sp.
e) Calcule a matriz W.
f) Calcule W1.
g) Calcule W1B
1

ei Sautovalores
h) Encontre os
p e i 1, i 1, 2de W B
194 a
EXPAM54 - Experimentao
e 1
Anlise
i) Calcule os autovetores
de
W
B
usando
Multivariada

DISCRIMINAO ENTRE VRIAS POPULAES


MTODO DE FISHER
Exemplo (continuao 2):
j)Quais
as
discriminantes
para
as
populaes?
k)Faa um grfico e represente o espao
discriminante nas duas dimenses que voc
encontrou. Represente a amostra aleatria no
grfico.
l)Em qual dos grupos seria alocado o
indivduo
x0 = [1 3]?

EXPAM54 - Experimentao e Anlise


Multivariada

195

Anlise Multivariada

ANLISE DE AGRUPAMENTO
(CLUSTER)
196

ANLISE DE CONGLOMERADOS (CLUSTER)


O que uma anlise de Cluster?

ANLISE DE CONGLOMERADOS (CLUSTER)

Medidas de parecena

Distncias (Dissimilaridades) Varia.


Quantitativas

Distncia
Distncia
Distncia
Distncia
Distncia
Outros

Euclidiana
de Mahalanobis (Estatstica)
de Manhattan (City-block)
de Chebchev
de Minkowski

ANLISE DE CONGLOMERADOS (CLUSTER)

Medidas de parecena

Coeficientes de Similaridade - Varia.


Qualitativas

Jaccard
Coincidncia simples
Gower
Outras

ANLISE DE CONGLOMERADOS (CLUSTER)

Distncia Euclidiana
Exemplo: Renda e Idade de seis indivduos
Indivduo

Renda

Idade

9,60

28

8,40

31

2,40

42

18,20

38

3,90

25

6,40

41

Por
exemplo:

d B, E

8, 40 3,90

D6 x 6

C
D

E
F

31 25 7,5
2

3, 23
0

15, 74 12,53
0

13,19 12, 04 16,30


0

6, 44 7,50 17, 07 19,33


0

13,39 10, 20 4,12 12,18 16,19 0


A

MATRIZ
DE
DISTNCIA
S

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos

Hierrquico
No-Hierrquico (Particional)

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos Hierrquicos

Caractersticas:

Nmero de grupos no informados a priori


Faz uso do dendrograma

Subdivididos em:

Aglomerativos
Divisivos (no ser abordado neste curso!)

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos Hierrquicos

Funes de ligao

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos Hierrquicos

Dendrograma

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao SIMPLES para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

Indivduo

Renda

Idade

9,60

28

8,40

31

2,40

42

18,20

38

3,90

25

6,40

41

Novo grupo
formado (A, B)

D6 x 6

C
D

E
F

3, 23
0

15, 74 12,53
0

13,19 12, 04 16,30


0

6, 44 7,50 17, 07 19,33


0

13,39 10, 20 4,12 12,18 16,19 0


A

Menor valor da
matriz de
distncias
(desconsiderand
o a diagonal)

MATRIZ DE
DISTNCIA
S
(passo 1)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao SIMPLES para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

d A, B , C min d A, C , d B, C

min 15, 74;12,53 12,53

d A, B , D min d A, D , d B, D

D5 x 5

min 13,19;12, 04 12, 04

d A, B , E min d A, E , d B, E

A, B
C

D
E

A, B

12,53
0

12, 04 16,30
0

6, 44 17, 07 19,33
0

10,19 4,12 12,18 16,19 0


C

min 6, 44;7,50 6, 44

d A, B , F min d A, F , d B, F

Menor valor da
min 13,39;10,19 10,19 matriz de
MATRIZ
distncias
DE
Novo grupo
(desconsiderand DISTNCI
formado (C, F)
AS
o a diagonal)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao SIMPLES para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

d A, B , C , F min d A, B , C , d A, B , F

min 12,53;10,19 10,19


A, B
D C, F
d D , C , F min d D, C , d D, F 4 x 4
D
min 16, 29;12,18 12,18
E

d E , C , F min d E , C , d E , F

A, B C , F
0
10,19
12, 04
6, 44

0
12,18
16,19

19,33 0
D

min 17, 06;16,19 16,19

Menor valor da
matriz de
MATRIZ DE
distncias
DISTNCIA
Novo grupo
S
formado {(A,B), E}(desconsiderand
o a diagonal) (passo 3)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao SIMPLES para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

A, B , E , C , F
min d A, B , C , F , d E , C , F
d

min 10,19;16,19 10,19

A, B , E , D

A, B , E

D3 x 3

A, B , E C , F
0

C, F

10,19

12, 04

12,18

min d A, B , D , d E , D
min 12, 04;19,33 12, 04

Novo grupo formado


{[(A,B), E], (C,F)}

Menor valor da
matriz de
distncias
MATRIZ DE
(desconsiderand
DISTNCIA
o a diagonal)
S
(passo 4)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao SIIMPLES para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

d { A, B , E , C , F }, D

D2 X 2 A, B , E , C , F

A, B , E

, C, F

0
12, 04

A, B , E , D , d C, F , D

min d

min 12, 04;12,18 12, 04

Novo grupo formado


{A, B, C, D, E, F}

Menor valor da
matriz de
distncias
MATRIZ
(desconsiderand DE
o a diagonal)DISTNCI
AS

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao COMPLETA para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

Indivduo

Renda

Idade

9,60

28

8,40

31

2,40

42

18,20

38

3,90

25

6,40

41

Novo grupo
formado (A, B)

D6 x 6

C
D

E
F

3, 23
0

15, 74 12,53
0

13,19 12, 04 16,30


0

6, 44 7,50 17, 07 19,33


0

13,39 10, 20 4,12 12,18 16,19 0


A

Menor valor da
matriz de
distncias
(desconsiderand
o a diagonal)

MATRIZ
DE
DISTNCI
AS

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao COMPLETA para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

d A, B , C max d A, C , d B, C

max 15, 74;12,53 15, 74

d A, B , D max d A, D , d B, D

D5 x 5

max 13,19;12, 04 13,19

d A, B , E max d A, E , d B, E

A, B
C

D
E

A, B

15, 74
0

13,19 16,30
0

7,50 17, 07 19,33


0

13,39 4,12 12,18 16,19 0


C

max 6, 44; 7,50 7,50

d A, B , F max d A, F , d B, F

Menor valor da
max 13,39;10,19 13,39 matriz de
MATRIZ DE
distncias
DISTNCIA
Novo grupo
S
(desconsiderand
formado (C, F)
o a diagonal) (passo 2)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao COMPLETA para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

d A, B , C , F max d A, B , C , d A, B , F

max 15, 74;13,39 15, 74


A, B
D C, F
d D , C , F max d D, C , d D, F 4 x 4
D
max 16, 29;12,18 16, 29
E

d E , C , F max d E , C , d E , F

A, B C , F
0
15, 74
13,19
7,50

0
16, 29
17, 06

19,33 0
D

max 17, 06;16,19 17, 06

Menor valor da
matriz de
MATRIZ
distncias
DE
Novo grupo
formado {(A,B), E}(desconsiderand DISTNCI
AS
o a diagonal)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao COMPLETA para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

A, B , E , C , F
max d A, B , C , F , d E , C , F
d

A, B , E

D3 x 3
max 15, 74;17, 06 17, 06

A, B , E , D

A, B , E C , F
0

C, F

17, 06

19,33

16, 29

max d A, B , D , d E , D
max 13,19;19,33 19,33

Novo grupo formado


{(C,F), D}

Menor valor da
matriz de
distncias
MATRIZ DE
(desconsiderand
DISTNCIA
o a diagonal)
S
(passo 4)

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo da ligao COMPLETA para agrupar o seguinte


conjunto de dados, usando a matriz de distncias Euclidianas
Exemplo: Renda e Idade de seis indivduos

D2 X 2

A, B , E

C , F , D

d { A, B , E}, C , F , D

A, B , E C , F , D

0
19,33

max d { A, B , E}, C , F , d { A, B , E}, D

Menor valor da
matriz de
distncias
MATRIZ
(desconsiderand DE
o a diagonal)DISTNCI

max 17, 06;19, 33 19, 33

Novo grupo formado


{A, B, C, D, E, F}

AS

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos No-Hierrquicos

Caractersticas:

Nmero de grupos conhecido a priori


No faz uso do dendrograma
Mais eficiente com conjuntos de dados
grandes, quando comparado a mtodos
hierrquicos

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos No-Hierrquicos

Alguns algoritmos

K-mdias
PAM
outros

ANLISE DE CONGLOMERADOS (CLUSTER)

Agrupamentos No-Hierrquicos

K-mdia

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos
Indivduo

Renda

Idade

9,60

28

8,40

31

2,40

42

12,00

30

Passo 1: Escolher, arbitrariamente, k


elementos da base de dados, como centros
iniciais dos grupos. No nosso caso, escolheremos
arbitrariamente os indivduos A e D.

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos

Passo 2: Dividir os itens em k grupos iniciais.


Os grupos devem ser formados, em torno dos k
elementos escolhidos no passo 1.
Para formarmos estes grupos, alocaremos os
elementos restantes aos centros mais
prximos, ou seja,
2
2
d B, A

d B, D

d C , A

8, 4 9, 6 31 28 3, 231099
2
2
8, 4 12 31 30 3, 736308

2, 4 9, 6 42 28 15, 74293
2
2
d C , D 2, 4 12 42 30 15,3675
2

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos

Logo, a observao B juntou-se a


observao A e a observao C juntou-se
com a observao D. Logo, os grupos
formados foram: (A, B) e (C,D).
Precisamos agora, encontrar os
centrides, que nada mais so que os
vetores mdios
formados, ou
6 8, 4grupos
28 31
9,dos

X A, B
9 29,5

2
2
seja,

2, 4 12
2

X C , D

42 30
7, 2 36

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos

A prxima etapa calcular a distncia de


cada das observaes do conjunto de
dados dos centrides.
Caso haja realocao de pelo menos
1 observao, os centrides precisam
ser recalculados e este ltimo
processo repetido.
Caso no haja nenhuma realocao.
Pare!

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos

Calculemos agora, ento, as distncias de cada


uma das observaes dos centrides:

d B, X 1, 62

d B, X 5,14

d A, X A, B 1, 62

d A, X C , D 8,35

A, B

C,D

d D, X 3, 04

d C , X A, B 14,14
A, B

d D, X 7, 68
d C , X C , D 7, 68
C ,D

Troca de
grupo!!!

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos

Logo, houve uma troca de grupo. Os


novos grupos passam a ser, ento: D.
Logo, os grupos formados foram: (A, B, D)
e (C).
Precisamos agora, recalcular os
centrides9,para
os
novos
grupos, ou seja,
6

8,
4

12
28

31

30

X A, B , D
10 29, 67

3
3

2, 4
X C
1

42
1 2, 4 42

ANLISE DE CONGLOMERADOS
(CLUSTER)

Usando o mtodo K-mdias, particione o conjunto


de dados em k=2 grupos
Exemplo: Renda e Idade de seis indivduos

Calculemos agora, ento, as distncias de cada


uma das observaes dos centrides:
No houve
trocas de
d A, X A, B , D 1, 71
d A, X C 15,
74
grupo.
FIM!

d D, X

2, 03

d B, X A, B , D 2, 08

A, B , D

d C , X A, B , D 14, 49

d D, X 15,37

d B, X C 12,53
C

d C , X C 0

Você também pode gostar