Você está na página 1de 35

Métodos Estatísticos Aplicados

À Engenharia de Produção
Análise Multivariada
Aula dia 30/09/2021
• Resumo dos capítulos anteriores Manly:
Capítulo Objetivo do capítulo é responder a seguinte Termos e conteúdos relevantes
pergunta: apontados no capítulo

Cap. 1 – O material de O que é uma análise multivariada? Cinco conjunto de dados foram
análise multivariada fornecidos para nós. Veja a tabela
de dados do Manly. Há uma breve
descrição dos dados multivariados.

Cap. 2 – Álgebra A matemática, a álgebra em especial, é a Matrizes, vetores, operações


Linear ferramenta básica das análises multivariadas. O matriciais, matriz diagonal, matriz
que devemos extrair de essencial dos conceitos identidade, transposta,
da álgebra linear para desenvolvermos nossa determinante, matriz de
capacidade de análise e interpretação das covariância e de correlação e
análises multivariadas? autovalores e autovalores
Cap. 3 – Quais as formas de representação de dados Represensentação de draftsman,
Representação dos multivariados apresentadas no capítulo? Quais perfis de variáveis, faces de
dados multivariados as formas que lhe mais chamou a atenção? Chernoff, variáveis índices.

Cap. 4 – Testes de O que é um teste de significância? Classifique os Teste de Hotelling, ANOVA e


significância com tipos de testes uni e multivariados? O que é um MANOVA.
dados multivariado teste de diferença entre grupos? Quais os testes
para medidas de locação? Quais os testes para
medidas de Escala?
O que é Significância
Multivariado?
Análise multivariada
• Como já mencionado, os métodos estatísticos univariados tratam uma única variável por vez. Como exemplo,
tome a tabela 1.1, página 14, do livro do Manly, referente as medidas do corpo de pardocas. Os 21 primeiros
pardais da tabela sobreviveram a tempestade, o restante morreu. Uma questão, aparentemente
interessante, é sabermos se há diferenças morfológica entre sobreviventes e não sobreviventes. Um teste de
hipóteses estatístico poder ser formulado da seguinte forma: .
• Qual a interpretação desse teste? Bem se a média de uma das variáveis é diferente para o grupo
sobreviventes (S) em relação aos não sobreviventes (NS), podemos dizer que os grupos são diferentes.
Entretanto, surge outra questão decorrente do fato que experimento foi não planejado, ou seja, foi casual,
um fenômeno da natureza etc. Será que essa diferença não se deve a aleatoriedade?
• Esse questão diz respeito tanto aos testes uni ou multivariado, é para resolver a essa questão avaliamos a
significância estatística do teste. O que é isso, de fato?
Análise multivariada
• Para responder a última questão, temos que entender o que é aleatoriedade. A natureza tem, como
princípio, comportamento “incerto”, que chamamos de variabilidade. Pense, reflita sobre como somos, em
certa medida, diferentes em termos físicos e psíquicos. Entretanto, podemos organizar, e até mesmo
classificar, indivíduos em grupos, categorias e afinidades por similaridades. Porém, mesmo dentro de grupos
ou categorias há “variabilidade”, ou seja, diferença entre seus membros. Bem, se eu não tenho acesso a
todos os indivíduos de um grupo (usaremos a partir daqui somente o termo “Grupo”), então tenho que
tomar uma amostra, que pode ser aleatória (probabilística) ou intencional ou a que tenho acesso (é o caso
dos pardais).
• Como vocês poderiam imaginar, posso extrair quantidade enorme de diferentes amostras, e cada uma delas
com diferentes estatísticas, ou seja, diferentes médias, mediana, variância, desvio padrão, amplitude etc. Por
que isso ocorre? Porque cada amostra poderá ter diferentes indivíduos, esse é o ponto.
• É ai que entre os testes de hipóteses e a significância estatística. Vocês irão perceber que isso é ciência, sem
a qual nossas pesquisas serão questionáveis.
Análise multivariada
• Retomemos ao ponto inicial, aos testes de hipóteses e a significância estatística.
• A hipótese é a que de fato nos interessa. Por que? Porque se assumirmos que a
hipótese nula, , é verdadeira não estaremos acrescentando nada de novo. Parece
estranho, não é? Sim, parece mas tem um sentido essa afirmação. Se eu quero
provar uma teoria, por exemplo a teoria da seleção natural, isso só será aceita se a
hipótese nula for rejeitada, caso contrário, se aceitarmos essa hipótese, a teoria não
poderá ser confirmada, por esse experimento, pelo menos; por outros poderá ser
possível, mas esse, dir-se-á que não há evidência estatística para rejeitar a hipótese
nula. Veja como é importante esse argumento, ele é o alicerce da ciência em seus
diferentes campos e áreas.
• Agora, se eu rejeitar iremos dizer que temos evidência estatística para rejeitar a
hipótese nula e aceitar a hipótese alternativa,
• Perceba que todo esse desenvolvimento tem a finalidade de comprovar uma
hipótese decorrente de uma teoria, ou conhecimento tácito. E mais, perceba que
serve de apoia, tão somente, e que o nível de significância, denominaremos de α, é
o erro do falso positivo: afirmamos que é verdadeiro é ele não é. E o falso
negativo?
Análise multivariada
• O falso negativo ocorre quando aceitamos a hipótese nula quando na verdade o correto e rejeitá-la. Isso
ocorre por erros experimentais, ou estudos mal planejados, decorrentes de erros na extração da amostra,
erros de medidas, tamanho da amostra insuficientes, falha na interpretação dos dados. O erro tipo II é
normalmente denominado de β. Quanto menor o erro β maior é o poder do teste em negar .
• Voltemos ao erro tipo I, α. Esse erro está associado ao erro amostral, cujos argumentos sobre já expusemos
nos primeiros slides, e fixemos ele em um valor pequeno, por exemplo, menor que 5%. Isso quer dizer que ao
rejeitar (aceitamos a hipótese alternativa) a probabilidade de errarmos é inferior a 5%: em 100 testes de
hipóteses, 5 deles tomaríamos o caminho, ou decisão, errada.
• Todos esses argumentos servem para os testes estatísticos uni e multivariados. E esses testes são de duas
ordens: a de locação (posição central) ou de escala (variabilidade). Para cada um destes há vários testes
estatísticos. Em geral, usamos a média amostral, , para testar diferenças de médias dos grupos, ou usamos a
variância amostral, para testar diferenças na variabilidade entre grupos.
Análise multivariada
• Se rejeitarmos a hipótese nula em um dos casos, podemos inferir estatisticamente que há diferença entre
grupos (ou populações – grupos podem ser chamados de populações).
• Qual a diferença entre testes de significância estatística uni e multivariado?
• A análise multivariada considera várias variáveis relacionadas simultaneamente. A análise univariada testa
cada variável por vez.

• Com o exposto, espero ter esclarecido o que significa “testes de significância estatística”, assunto do capítulo
4 do livro do Manly.

• Antes de avançarmos no assunto, apresento nos slides seguintes figuras pertinentes ao capítulo 3 do Manly,
que trata da representação multivariada.
O que são e quais são testes de
Significância Multivariada?
Testes de Significância Estatística
• Como já foi dito em slides anteriores que tratou sobre a significância
estatística no seu aspecto teórico, nos próximos slides apresentar-se-á dois
método estatísticos comumente mais utilizados para essa finalidade,
específicos para testes de médias, a saber:
• Teste de multivariado de T-Hotteling e a MANOVA (análise de variância multivariada).
• Para testes de diferença entre grupos univariados utiliza-se o teste t-student,
desde que os dados sigam a distribuição normal padrão, caso contrário,
recomenda-se o uso de testes estatísticos não paramétricos.
• Outro aspecto a considerar, e fazer aqui um parênteses para explicá-los, há
testes para a locação (posição central) e escala (variabilidade), como mostra
a figura do próximo slide.
TESTE DE SIGNIFICÂNCIA
ESTATÍSTICA PARA DIFERENÇA
ENTRE GRUPOS

ESCALA (VARIÂNCIA,
LOCAÇÃO (MÉDIA) DESV. PADRÃO)

Não DISTRIB. Sim


NORMAL?

MÉTODOS NÃO MÉTODOS


PARAMÊTRICOS PARAMÊTRICOS

adequados
Teste de significância multivariado
• Aplica-se o teste Hotteling para diferença entre grupos. Para exemplificar o seu
uso, considere o exemplo dos pardais, tabela 1.1.
• No caso dessa tabela, há 5 variáveis interdependentes e dois grupo, os sobreviventes e os
não sobreviventes.
• Vimos pela análise gráfica que há indícios de maior variabilidade dos indivíduos que estão
no grupo dos não sobreviventes.
• Iremos utilizar do teste de Hotteling pois esse é um problema multivariado, com o objetivo
de verificar se há evidência estatística se diferença na média entre os dois grupos.

• : que pelo menos em uma das variáveis há diferença entre as médias.


• Poder-se-ia aplicar testes univariado, porém isso não é recomendado. Deixo
para vocês buscarem a explicação para tal pergunta.
O Teste Hotteling
utiliza-se de símbolos vetoriais
• Para distribuições normais com mesmo desvio padrão, temos a distribuição t-Student para a
diferença entre médias:

• Para matrizes de covariância iguais, temos:

Usa-se vetores de média das 5


variáveis, inversa da matriz de
• A estatística de Hotteling é dado por: covariância e a transposta do
T –e um escalar
vetor de médias

• Pela relação entre a distribuição t e F, temos:


p- número
de grupos
O Teste Hotteling
utiliza-se de símbolos vetoriais
• Calculamos a estatística de Hotteling como segue:

• Aplicação para os valores médios dos pardais de Bumpus.


• Aplicar testes de hipóteses individuais para cada variável.
Caso dos pardais de Bumpus (1896)
• Foram tomadas as seguintes medidas dos pardais:
• X1 = comprimento total;
• X2 = extensão alar;
• X3 = comprimento do bico e cabeça;
• X4 = comprimento do úmero;
• X5 = comprimento da quilha do externo.
Correlação
Correlação

  1 2 3 4 5
CompTotal 1,000 0,735 0,662 0,645 0,605
EXT_ALAR 0,735 1,000 0,674 0,769 0,529
CompBico 0,662 0,674 1,000 0,763 0,526
CompUmero 0,645 0,769 0,763 1,000 0,607
CompExterno 0,605 0,529 0,526 0,607 1,000
Representação dos dados
Correlations (GORH Exemplo1 7v*49c)
CompTotal

EXT _ALAR

CompBico

CompUmero

CompExterno
Aplicação Pardais Bumpus
• Teste de significância individual:

Diferença entre médias:


  Mean Mean t-value df p
CompTotal 157,3810 158,4286 -0,992954 47 0,325817
EXT_ALAR 241,0000 241,5714 -0,387125 47 0,700411
CompBico 31,4333 31,4786 -0,195194 47 0,846082
CompUmero 18,5000 18,4464 0,325794 47 0,746026
CompExterno 20,8095 20,8393 -0,102918 47 0,918466

Diferença entre Variâncias


Valid N Valid N Std.Dev. Std.Dev. F-ratio p
21 28 3,323796 3,881853 1,363985 0,478806
21 28 4,183300 5,705284 1,860015 0,156214
21 28 0,728926 0,853471 1,370915 0,471531
21 28 0,419524 0,659114 2,468359 0,040970
21 28 0,758225 1,149344 2,297758 0,059084
Bo x & W h iske r P lo t: EXT _ AL AR
Bo x & W h iske r Plo t: C o mp T o ta l 2 4 4 ,0
1 6 0 ,5

2 4 3 ,5
1 6 0 ,0

1 5 9 ,5
2 4 3 ,0

1 5 9 ,0 2 4 2 ,5

1 5 8 ,5 2 4 2 ,0

EXT_ALAR
CompTotal
1 5 8 ,0 2 4 1 ,5

1 5 7 ,5 2 4 1 ,0

1 5 7 ,0 2 4 0 ,5

1 5 6 ,5 2 4 0 ,0

1 5 6 ,0
2 3 9 ,5
Mean
1 5 5 ,5 M e a n ± SE Me a n
S NS 2 3 9 ,0 Me a n ± SE
M e a n ± 1 ,9 6 *SE S NS
G ru p o Me a n ± 1 ,9 6 *SE
G ru p o

Bo x & W h iske r Plo t: C o mp Bico


3 1 ,9

3 1 ,8

3 1 ,7

3 1 ,6
Há interseção entre os grupos para
box plot de cada variável
CompBico

3 1 ,5

3 1 ,4

3 1 ,3

3 1 ,2

3 1 ,1

Me a n
3 1 ,0 Me a n ± SE
S NS
Me a n ± 1 ,9 6 *SE
G ru p o
Box & W h iske r Plo t: Co mpUme ro
1 8 ,8

1 8 ,7

1 8 ,6

Há interseção entre os grupos para

CompUmero
1 8 ,5

box plot de cada variável.


1 8 ,4

1 8 ,3

1 8 ,2

Mean
1 8 ,1 M e a n ± SE
S NS
M e a n ± 1 ,9 6 *SE
G ru p o
Bo x & W h isker Plot: C o mpExte rn o
2 1,3

2 1,2

2 1,1

2 1,0

2 0,9

CompExterno
2 0,8

2 0,7

2 0,6

2 0,5

2 0,4

Mea n
2 0,3 Mea n± SE
S NS
Mea n± 1,9 6 *SE
G ru po
Aplicação Pardais Bumpus: usando o Excel
• Aplicando teste de significância multivariado:
157,3810 11,0476 9,1000 1,5567 0,8700 1,28619

241,0000 9,1000 17,5000 1,9100 1,3100 0,88

Matriz de covariância (C1)


Matriz de média amostral

31,4333 1,5567 1,9100 0,5310 0,1890 0,24


18,5000 0,8700 1,3100 0,1890 0,1760 0,133

20,8095 1,2862 0,8800 0,2400 0,1330 0,574905


mostral

iância

158,4286 15,0690 17,1900 2,2430 1,7460 2,931


Aplicação Pardais Bumpus
Matriz de Covariância Amostral Combinada ©
13,358 13,747 1,951 1,373 2,231
13,747 26,146 2,765 2,252 2,710
1,951 2,765 0,644 0,350 0,423
1,373 2,252 0,350 0,324 0,347
2,231 2,710 0,423 0,347 1,004
Inversa da Matriz C
0,206 -0,069 -0,240 0,080 -0,197
-0,069 0,123 -0,037 -0,554 0,028
-0,240 -0,037 4,239 -3,293 -0,015
0,080 -0,554 -3,293 11,522 -1,282
-0,197 0,028 -0,015 -1,282 1,809
Aplicação Pardais Bumpus
• Teste de significância estatística Multivariado:
Produto da Matriz C pela Inversa da Matriz C

1,000 0,000 0,000 0,000 0,000


0,000 1,000 0,000 0,000 0,000
0,000 0,000 1,000 0,000 0,000
0,000 0,000 0,000 1,000 0,000
0,000 0,000 0,000 0,000 1,000

T - Hotteling 2,824
F-sndecor 0,516731915
P-value 0,762129989
Erro tipo I

Novamente, não há evidência estatística para afirmar que há diferença entre os grupos
Comparação da variância para duas amostras:
caso multivariado
• Antes de entrarmos no caso multivariado, vamos relembrar os testes
de variância univariado, que chamamos de medida de Escala.
• O testes mais conhecido é o teste de F-Snedecor, cuja estatística de
teste é: .
• Os pacotes estatísticos apresentem outros testes, como o de Levene e Brown
& Forsythe. Veja esses testes aplicados ao caso da tabela 1.1 no próximo
slide.
Aplicação Pardais Bumpus
• Teste de significância para a variância:

Diferença entre Variâncias

  F-ratio p Levene df p Brn-Fors df p


CompTotal 1,363985 0,478806 1,873472 47 0,177585 1,447044 47 0,235028
EXT_ALAR 1,860015 0,156214 1,406406 47 0,241615 1,402985 47 0,242180
CompBico 1,370915 0,471531 0,671888 47 0,416532 0,663774 47 0,419340
CompUmero 2,468359 0,040970 3,925101 47 0,053438 3,655855 47 0,061979
CompExterno 2,297758 0,059084 2,337620 47 0,132985 1,984049 47 0,165546

Observe que as técnicas deram resultados próximos em termos do p-value.


Comparação da variância para duas amostras:
caso multivariado

• Para o caso multivariado, há alguns testes, o indicado no livro é o M-


Box.
• Essa técnica e outras aplicadas ao caso multivariado, deixaremos para
ver quando da apresentação da MANOVA.
MANOVA
Comparação de médias para várias variáveis
• Quando estamos estudando dois ou mais grupos a
técnica utilizada é a ANOVA, para o caso univariado, e
a MANOVA para o caso multivariado.
• Vamos primeiro ao conceito do caso univariado, a
ANOVA.
• A ANOVA decompõe a variação total em dois
componentes: variação explicada pela diferença entre os
grupos mais a variação aleatória, da seguinte forma:
Comparação de médias para várias variáveis
• Testes multivariados para 2 ou mais amostras (grupos).
• Lambda de Wilk
• Raiz de Roy
• Pillai
• Lawley – Hotelling.
Comparação de médias para várias variáveis

Multivariate Tests of Significance (pardais statistica) Sigma-restricted parameterization


Type III decomposition
Test Value F Effect - df Error - df p
Grupo Wilks 0,938391 0,577751 5 44 0,716703
Pillai's 0,061609 0,577751 5 44 0,716703
Hotellng 0,065654 0,577751 5 44 0,716703
Roy's 0,065654 0,577751 5 44 0,716703
Usando o Statistica
Teste de significância Univariável
Sobreviventes Não Sobreviventes t-value df p Sobrev. Morrer.
 
CompTotal 157,3810 158,4286 -0,992954 47 0,325817 21 28
EXT_ALAR 241,0000 241,5714 -0,387125 47 0,700411 21 28
CompBico 31,4333 31,4786 -0,195194 47 0,846082 21 28
CompUmero 18,5000 18,4464 0,325794 47 0,746026 21 28
CompExterno 20,8095 20,8393 -0,102918 47 0,918466 21 28

T-tests : Hotelling T²=2,82370 p<0,76217


Esse teste de significância é geral, para as cinco variáveis juntas. Multivariada

Para a variável ser significativa p tem que ser pequeno, em geral p<0,05.

Resultado:
Não há evidência de que a estrutura física determina a sobrevivência dos pardais.

Você também pode gostar