Escolar Documentos
Profissional Documentos
Cultura Documentos
Faculdade de Ciências
Estatı́stica Multivariada
0v Muito bom
Discentes: Edilson Neilly Raúl André
8v/10v
Ilda Pedro Macia 0v
Marcina Antônio Covele 0v
0v
Mércio Antônio Caniço
0v
Joaquim Eduardo Muiambo
2 Desenvolvimento 2
2.1 Distribuição Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Importância da Distribuição Normal Multivariada . . . . . . . . . . . . 2
2.1.2 Propriedades da distribuição de probabilidades . . . . . . . . . . . . . 3
2.1.3 Suposição de distribuição Normal Multivariada em uma matriz de dados 4
2.1.4 Transformação de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Aplicação 6
3.1 Verificação da Normalidade Multivariada . . . . . . . . . . . . . . . . . . . . 6
3.2 Medidas de correção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Conclusão 7
1 Introdução
1.1 Contextualização
De acordo com Hair et al. (2009) a análise multivariada é uma ferramenta estatı́stica que
processa informações, de modo a simplificar a estrutura dos dados e a sintetizar informações,
quando o número de variáveis envolvidas é muito grande, facilitando o entendimento do relaci-
onamento existente entre as variáveis do processo. A análise multivariada auxilia na formulação
de questões relativamente complexas de forma especı́fica e precisa, possibilitando a condução
de pesquisas teoricamente significativas.
Segundo Steiner (1995) a necessidade de entender a relação entre diversas variáveis aleatórias
faz da análise multivariada uma metodologia com grande potencial de uso. Para Lourenço e
Matias (2000) as técnicas estatı́sticas multivariadas são mais complexas do que aquelas da es-
tatı́stica univariada. Além disso, apesar de uma razoável complexidade teórica, fundamentada
na matemática, as técnicas multivariadas, por permitirem o tratamento de diversas variáveis ao
mesmo tempo, podem oferecer ao pesquisador um material bastante robusto para a análise dos
dados da pesquisa.
1.2 Objectivos
1.2.1 Objectivo Geral
1
2 Desenvolvimento
Entretanto, Johnson e Wichern (2002) alertam que, para dados reais, a presença de variáveis
com distribuição normal multivariada exata dificilmente ocorre. Nesses casos, a densidade nor-
mal é frequentemente uma aproximação útil à verdadeira distribuição da população.
Para Prado (2016) uma generalização da densidade normal com diversas dimensões desem-
penha um papel fundamental na análise multivariada. Embora os dados reais não sejam exa-
tamente normal multivariados, a densidade normal é frequentemente uma aproximação usual
para a verdadeira distribuição da população. Uma vantagem da distribuição normal multivari-
ada decorre do fato de que ela é matematicamente tratável e bons resultados pode ser obtidos.
Isto frequentemente não é o caso de outras distribuições geradoras de dados. É claro que, a
atração matemática por si só é de pouca utilidade para o experimentador.
Segundo Rao (1952), tentativas iniciais de generalização das análises univariadas de variância
para o caso de variáveis múltiplas foi dado por Wishart (19 3), o qual estudou a distribuição
amostral simultânea de variâncias e covariâncias em amostras de uma população normal mul-
tivariada. Posteriormente, Hotelling e Frankel (1931) verificam a distribuição T, que é uma
extensão natural da distribuição de t-Student para uma população normal multivariada. Wilks
(1932), seguindo o método da razão de verossimi lhança (Neyman e Pearson, 1908 e 1931;
Pearson e Neyman 1930), obteve generalizações apropriadas na análise de variância aplicáveis
a diversas variáveis. A estatı́stica proposta por estes autores tem sido útil em uma variedade de
problemas.
Conforme Betarelli Junior(s/d), afirma que destaca algumas importância da distribuição normal
multivariada no desenvolvimento das análises multivariadas como sendo: facilita o tratamento
2
matemático, em muitas situações reais, a distribuição normal serve como uma aproximação útil
e adequada da real distribuição populacional e as distribuições amostrais, tais como Poisson e
binomial, podem ser próximas das normais devido ao efeito do limite central.
1 (x−µ)2
fx (x) = √ e 2σ2 , x ∈ R, µ ∈ R e σ ∈ R+
σ 2π
p
" 2 #
1 1X xi − µi
f (x1 , x2 , . . . , xp ) = p exp −
(2π) 2 σ1 σ2 ...σ3 2 i=1 σi
σ12 0 · · · 0
2
0 σ · · · 0
2
Se x0 = [x1 , x2 , . . . , xp ] , µ0 = [µ1 , µ2 , . . . , µp ] e Σ =
.. . .. . , onde Σ é a
. .
. . .
.
2
0 0 · · · σp
2 2 2
matriz de covariância e σ11 = σ1 , σ22 = σ2 e σpp = σp , pode-se escrever a densidade conjunta
como:
1 1 0 −1
f(x) = exp − (x − µ) Σ (x − µ)
(2π)p/2 |Σ|1/2 2
onde: −∞ < xi < ∞, i = 1, 2, . . . , p.
3
distribuı́das.
A pressuposição de que cada vetor de observação X veio de uma distribuição normal multivari-
∼j
ada será requerida nas técnicas estatı́sticas que serão abordadas nos capı́tulos subsequentes. Por
outro lado, nas situações em que a amostra é grande e as técnicas dependem apenas do compor-
tamento de X̄∼ , ou distâncias envolvendo X da forma n(X − −µ)0 S−1 (X − µ), a pressuposição
∼
de normalidade das observações individuais X é menos crucial. Isto devido à aproximação da
∼j
distribuição normal assintótica das principais estatı́sticas. No entanto, melhor será a qualidade
da inferência quanto mais próxima à população parental se assemelhar da forma da distribuição
normal multivariada. É imperativo que exista procedimentos para detectar os caso onde os da-
dos exibam desvios de moderados a extremos do esperado sob normalidade multivariada.
Baseado na distribuição normal, sabe-se que todas as combinações lineares de variáveis nor-
mais são normais e que contornos da densidade normal são elipsóides. Devido às dificuldades
de avaliação de um teste conjunto em todas as dimensões, os testes para checar a normali-
dade serão concentrados em uma ou duas dimensões. Obviamente se paga um preço por estas
simplificações, como não revelar algumas caracterı́sticas que só podem ser observadas em di-
mensões maiores. É possı́vel por exemplo, construir uma distribuição não normal bivariada
com marginais normais. No entanto, muitos tipos de não normalidade são revelados em geral
nas distribuições marginais, e para aplicações práticas será suficiente checar a normalidade em
uma ou duas dimensões. Faltam referencias bibliográficas.
4
distribuição normal, ou seja, X ∼ N(0, 1).
xλ −1
λXλ−1
, para λ 6= 0
Z (λ) =
Xln X, para λ = 0
em que se tem o jacobiano J(λ, z) = 1, com valores transformados Z (λ) . Para encontrar
o melhor λ, utilizou-se o estimador de máxima verossimilhança (Lmax ) que foi determinado
através da equação:
σ̂λ2 (z)
n n SSE(λ)
Lmax(λ) = − ln = − ln
2 n 2 n
5
3 Aplicação
Conforme a tabela acima, podemos afirmar que as variáveis Girth e Volume nao seguem uma
distribuição normal, visto que os seus P-valores são menores que o nı́vel de significância de 5%.
E para a variável Height, verificou-se que o mesmo não viola o pressuposto da normalidade
univariada.
Com base na Tabela 2, podemos afirmar que os dados não seguem distribuição normal multiva-
riada, visto que o seu P-valor é menor que o seu nı́vel de significância de 5%.
Após a transformação dos dados usando famı́lia box-cox, e com base nos resultados da Tabela
3, podemos afirmar que as variáveis seguem distribuição normal univariada, visto que os seus
p-valores são maior que o seu nı́vel de significância de 5%.
Com base na Tabela 4, verificou-se que os dados seguem uma distribuição normal multivariada,
visto que o seu p-valor é maior que o seu nı́vel de significância de 5%.
6
4 Conclusão
Neste trabalho pretendia-se Investigar e compreender o tema referente a distribuição normal
multivariada e o seu papel no desenvolvimento das análises multivariadas, com os objectivos
conclui-se:
1. A distribuição normal, além da sua atratividade pela sua facilidade de tratamento ma-
temático, possui duas razões práticas que justificam a sua utilidade. A primeira, diz que a
distribuição normal é a mais adequada para modelos populacionais em várias situações;
e a segunda refere-se ao fato da distribuição amostral de muitas estatı́sticas multivariadas
ser aproximadamente normal, independentemente da forma da distribuição da população
original, devido ao efeito do limite central; e
7
Referências
[1] HAIR, J. F. et al. (2006). Análise multivariada de dados. (S.1.]: Bookman Editora.
[4] JOHNSON, R. A.; WICHERN. (2002). Applied multivariate statistical analysis. [S.1.]:
Prentice hall Upper Saddle River, NJ, 2002. v. 5.