Você está na página 1de 10

Universidade Eduardo Mondlane

Faculdade de Ciências

Departamento de Matemática e Informática


Curso de Licenciatura em Estatistica

Semestre VI, 3o Ano

Estatı́stica Multivariada

Distribuição Normal Multivariada


Defesas

0v Muito bom
Discentes: Edilson Neilly Raúl André
8v/10v
Ilda Pedro Macia 0v
Marcina Antônio Covele 0v
0v
Mércio Antônio Caniço
0v
Joaquim Eduardo Muiambo

Docentes: Osvaldo Loquiha & Reinaldo Zezela

Maputo, 14 de outubro de 2021


Índice
1 Introdução 1
1.1 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Objectivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.2 Objectivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Desenvolvimento 2
2.1 Distribuição Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Importância da Distribuição Normal Multivariada . . . . . . . . . . . . 2
2.1.2 Propriedades da distribuição de probabilidades . . . . . . . . . . . . . 3
2.1.3 Suposição de distribuição Normal Multivariada em uma matriz de dados 4
2.1.4 Transformação de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Aplicação 6
3.1 Verificação da Normalidade Multivariada . . . . . . . . . . . . . . . . . . . . 6
3.2 Medidas de correção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4 Conclusão 7
1 Introdução

1.1 Contextualização
De acordo com Hair et al. (2009) a análise multivariada é uma ferramenta estatı́stica que
processa informações, de modo a simplificar a estrutura dos dados e a sintetizar informações,
quando o número de variáveis envolvidas é muito grande, facilitando o entendimento do relaci-
onamento existente entre as variáveis do processo. A análise multivariada auxilia na formulação
de questões relativamente complexas de forma especı́fica e precisa, possibilitando a condução
de pesquisas teoricamente significativas.

Segundo Steiner (1995) a necessidade de entender a relação entre diversas variáveis aleatórias
faz da análise multivariada uma metodologia com grande potencial de uso. Para Lourenço e
Matias (2000) as técnicas estatı́sticas multivariadas são mais complexas do que aquelas da es-
tatı́stica univariada. Além disso, apesar de uma razoável complexidade teórica, fundamentada
na matemática, as técnicas multivariadas, por permitirem o tratamento de diversas variáveis ao
mesmo tempo, podem oferecer ao pesquisador um material bastante robusto para a análise dos
dados da pesquisa.

1.2 Objectivos
1.2.1 Objectivo Geral

Investigar a Distribuição Normal Multivariada.

1.2.2 Objectivos Especı́ficos

• Compreender a importância e/ou papel no desenvolvimento das análises multivariadas;

• Identificar as 4 importantes propriedades da distribuição de probabilidades; e

• Verificar a suposição de distribuição Normal Multivariada em uma matriz de dados.

1
2 Desenvolvimento

2.1 Distribuição Normal Multivariada


Para Gouvêa, Prearo e Romeiro (2012) as técnicas de análise multivariada que se utilizam de
variáveis métricas e testes estatı́sticos, a normalidade multivariada é a condição mais funda-
mental de aplicação. Entretanto, no caso da análise de regressão, há a premissa de normalidade
univariada, considerando-se apenas a variável referente aos resı́duos.

A distribuição normal multivariada assumirá a forma de sinos tridimensionais simétricos nas


seguintes condições: quando o eixo a apresenta valores de uma determinada variável, o eixo y
apresenta contagem para cada valor da variável em x, e o eixo z apresenta valores de qualquer
outra variável em consideração.

Entretanto, Johnson e Wichern (2002) alertam que, para dados reais, a presença de variáveis
com distribuição normal multivariada exata dificilmente ocorre. Nesses casos, a densidade nor-
mal é frequentemente uma aproximação útil à verdadeira distribuição da população.

2.1.1 Importância da Distribuição Normal Multivariada

Para Prado (2016) uma generalização da densidade normal com diversas dimensões desem-
penha um papel fundamental na análise multivariada. Embora os dados reais não sejam exa-
tamente normal multivariados, a densidade normal é frequentemente uma aproximação usual
para a verdadeira distribuição da população. Uma vantagem da distribuição normal multivari-
ada decorre do fato de que ela é matematicamente tratável e bons resultados pode ser obtidos.
Isto frequentemente não é o caso de outras distribuições geradoras de dados. É claro que, a
atração matemática por si só é de pouca utilidade para o experimentador.

Segundo Rao (1952), tentativas iniciais de generalização das análises univariadas de variância
para o caso de variáveis múltiplas foi dado por Wishart (19 3), o qual estudou a distribuição
amostral simultânea de variâncias e covariâncias em amostras de uma população normal mul-
tivariada. Posteriormente, Hotelling e Frankel (1931) verificam a distribuição T, que é uma
extensão natural da distribuição de t-Student para uma população normal multivariada. Wilks
(1932), seguindo o método da razão de verossimi lhança (Neyman e Pearson, 1908 e 1931;
Pearson e Neyman 1930), obteve generalizações apropriadas na análise de variância aplicáveis
a diversas variáveis. A estatı́stica proposta por estes autores tem sido útil em uma variedade de
problemas.

Conforme Betarelli Junior(s/d), afirma que destaca algumas importância da distribuição normal
multivariada no desenvolvimento das análises multivariadas como sendo: facilita o tratamento

2
matemático, em muitas situações reais, a distribuição normal serve como uma aproximação útil
e adequada da real distribuição populacional e as distribuições amostrais, tais como Poisson e
binomial, podem ser próximas das normais devido ao efeito do limite central.

A densidade normal multivariada é uma generalização da densidade normal univariada p ≥ 2


dimensões. Denota-se, por conveniência, a função densidade de probabilidade da distribuição
normal, com média µ e variância σ 2 , por X ∼ N (µ, σ 2 ). A distribuição normal univariada,
com média µ e variância σ 2 , tem função densidade de probabilidade dada por:

1 (x−µ)2
fx (x) = √ e 2σ2 , x ∈ R, µ ∈ R e σ ∈ R+
σ 2π

A função densidade de probabilidade conjunta da normal com p variáveis independentes nor-


mais X1 , X2 , . . . , Xp tem a forma:

p
"  2 #
1 1X xi − µi
f (x1 , x2 , . . . , xp ) = p exp −
(2π) 2 σ1 σ2 ...σ3 2 i=1 σi

 
σ12 0 · · · 0
2
0 σ · · · 0
 
 2 
Se x0 = [x1 , x2 , . . . , xp ] , µ0 = [µ1 , µ2 , . . . , µp ] e Σ = 
 .. . .. . , onde Σ é a
 . .
. . .
.


2
0 0 · · · σp
2 2 2
matriz de covariância e σ11 = σ1 , σ22 = σ2 e σpp = σp , pode-se escrever a densidade conjunta
como:  
1 1 0 −1
f(x) = exp − (x − µ) Σ (x − µ)
(2π)p/2 |Σ|1/2 2
onde: −∞ < xi < ∞, i = 1, 2, . . . , p.

2.1.2 Propriedades da distribuição de probabilidades

Algumas propriedades da distribuição normal são fundamentais para o entendimento de mode-


los e métodos estatı́sticos. Com essas propriedades torna-se possı́vel manipular as distribuições
normais facilmente o que a torna popular (MARQUES, 2006). As seguintes propriedades levam
em consideração que X possui uma distribuição normal:

1) Combinações lineares das componentes de X ∼ Np (µ, Σ) são normalmente distribuı́das.

2) Todos os subconjuntos das componentes de X ∼ Np (µ, Σ) tem uma distribuição normal


(multivariada).

3) Covariâncias nulas implicam que as componentes correspondentes são independentemente

3
distribuı́das.

4) As distribuições condicionais das componentes de X ∼ Np (µ, Σ) são normais (multivari-


adas).

2.1.3 Suposição de distribuição Normal Multivariada em uma matriz de dados

A pressuposição de que cada vetor de observação X veio de uma distribuição normal multivari-
∼j
ada será requerida nas técnicas estatı́sticas que serão abordadas nos capı́tulos subsequentes. Por
outro lado, nas situações em que a amostra é grande e as técnicas dependem apenas do compor-
tamento de X̄∼ , ou distâncias envolvendo X da forma n(X − −µ)0 S−1 (X − µ), a pressuposição

de normalidade das observações individuais X é menos crucial. Isto devido à aproximação da
∼j
distribuição normal assintótica das principais estatı́sticas. No entanto, melhor será a qualidade
da inferência quanto mais próxima à população parental se assemelhar da forma da distribuição
normal multivariada. É imperativo que exista procedimentos para detectar os caso onde os da-
dos exibam desvios de moderados a extremos do esperado sob normalidade multivariada.

Baseado na distribuição normal, sabe-se que todas as combinações lineares de variáveis nor-
mais são normais e que contornos da densidade normal são elipsóides. Devido às dificuldades
de avaliação de um teste conjunto em todas as dimensões, os testes para checar a normali-
dade serão concentrados em uma ou duas dimensões. Obviamente se paga um preço por estas
simplificações, como não revelar algumas caracterı́sticas que só podem ser observadas em di-
mensões maiores. É possı́vel por exemplo, construir uma distribuição não normal bivariada
com marginais normais. No entanto, muitos tipos de não normalidade são revelados em geral
nas distribuições marginais, e para aplicações práticas será suficiente checar a normalidade em
uma ou duas dimensões. Faltam referencias bibliográficas.

2.1.4 Transformação de Dados

Após o diagnóstico de normalidade uni e multivariada dos dados amostrais, procedeuse a


transformação dos dados de variáveis que não se ajustaram a distribuição normal. Para isso,
utilizou-se a famı́lia de transformações Box-Cox (BOX; COX, 1964), conforme descrito por:
Draper e Smith (1981), Srivastava (2002), Kutner et al. (2004) e Fávero et al. (2009). A famı́lia
de transformações é expressa pela seguinte equação:
( )
xλ −1
(λ) λ
, para λ 6= 0
X =
ln X, para λ = 0

em que X é a variável que esta sendo transformada e λ é um parâmetro adicional e desconhe-


cido do modelo. O objetivo é transformar a variável X em uma nova escala, mais próxima à

4
distribuição normal, ou seja, X ∼ N(0, 1).

Para a escolha da potência λ, foi estabelecida uma amplitude entre −5 ≤ λ ≤ 5. Os valo-


res de λ desse intervalo foram inseridos na equação:

xλ −1
 

 λXλ−1
, para λ 6= 0 

Z (λ) =
 
Xln X, para λ = 0
 


em que se tem o jacobiano J(λ, z) = 1, com valores transformados Z (λ) . Para encontrar
o melhor λ, utilizou-se o estimador de máxima verossimilhança (Lmax ) que foi determinado
através da equação:

σ̂λ2 (z)
   
n n SSE(λ)
Lmax(λ) = − ln = − ln
2 n 2 n

em que SSE(λ) é a soma de quadrados, n é o número de observações e σ̂λ2 (z) é a variância da


variável (Z) transformada pela potência λ. Assim, foi possı́vel obter o melhor valor de λ que
maximizasse o estimador de máxima verossimilhança (Lmax ) e minimizasse o resı́duo.

5
3 Aplicação

3.1 Verificação da Normalidade Multivariada

Tabela 1: Normalidade Univariado da base de dados


Teste Variável Estatı́stica P-value Normality
1 Anderson-Darling Girth 0.7455 0.0467 NO
2 Anderson-Darling Height 0.3593 0.4282 YES
3 Anderson-Darling Volume 1.2916 0.0019 NO

Conforme a tabela acima, podemos afirmar que as variáveis Girth e Volume nao seguem uma
distribuição normal, visto que os seus P-valores são menores que o nı́vel de significância de 5%.
E para a variável Height, verificou-se que o mesmo não viola o pressuposto da normalidade
univariada.

Tabela 2: Normalidade Multivariada da base de dados


Teste H P-value MVN
1 Royston 8.331369 0.0170622 NO

Com base na Tabela 2, podemos afirmar que os dados não seguem distribuição normal multiva-
riada, visto que o seu P-valor é menor que o seu nı́vel de significância de 5%.

3.2 Medidas de correção

Tabela 3: Normalidade Univariado da base de dados


Teste Variável Estatı́stica P- value Normality
1 Anderson-Darling Girth 0.5614 0.1273 YES
2 Anderson-Darling Height 0.2241 0.7960 YES
3 Anderson-Darling Volume 0.3485 0.4404 YES

Após a transformação dos dados usando famı́lia box-cox, e com base nos resultados da Tabela
3, podemos afirmar que as variáveis seguem distribuição normal univariada, visto que os seus
p-valores são maior que o seu nı́vel de significância de 5%.

Tabela 4: Normalidade Multivariada da base de dados


Teste H P-value MVN
1 Royston 1.699231 0.5096232 YES

Com base na Tabela 4, verificou-se que os dados seguem uma distribuição normal multivariada,
visto que o seu p-valor é maior que o seu nı́vel de significância de 5%.

6
4 Conclusão
Neste trabalho pretendia-se Investigar e compreender o tema referente a distribuição normal
multivariada e o seu papel no desenvolvimento das análises multivariadas, com os objectivos
conclui-se:

1. A distribuição normal, além da sua atratividade pela sua facilidade de tratamento ma-
temático, possui duas razões práticas que justificam a sua utilidade. A primeira, diz que a
distribuição normal é a mais adequada para modelos populacionais em várias situações;
e a segunda refere-se ao fato da distribuição amostral de muitas estatı́sticas multivariadas
ser aproximadamente normal, independentemente da forma da distribuição da população
original, devido ao efeito do limite central; e

2. Na utilização dos dados da trees, perante Teste de Royston a evidência de normalidade


multivariada na variável Height. E para normalidade multivariada houve violação do
pressuposto. Após a transformação dos dados perante Teste de Royston a evidência de
normalidade multivariada assim como normalidade univariada para todas variáveis.

7
Referências
[1] HAIR, J. F. et al. (2006). Análise multivariada de dados. (S.1.]: Bookman Editora.

[2] STEINER, M. T. A. (1995). Uma metodologia para o reconhecimento de padrões mul-


tivariados com resposta dicotômica. Tese (Doutorado) — Universidade Federal de Santa
Catarina, Centro Tecnologico.

[3] GOUVÊA, M. A.; PREARO, L. C.; ROMEIRO, M. do C. (2012). Avaliação da adequação


de aplicação de técnicas multivariadas em estudos do comportamento do consumidor em
teses e dissertações de duas instituições de ensino superior. Revista de Administração,
Elsevier, v. 47, n. 2, p.

[4] JOHNSON, R. A.; WICHERN. (2002). Applied multivariate statistical analysis. [S.1.]:
Prentice hall Upper Saddle River, NJ, 2002. v. 5.

[5] PRADO, T. K. L. d. (2016). Regressão não linear multivariada no crescimento do coco


variedade anã verde. Universidade Federal de Lavras.

Você também pode gostar