Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUÇÃO À ANÁLISE
ESTATÍSTICA MULTIVARIADA DE
DADOS
Sumário
■ O que é análise multivariada de dados? ■ Matriz de variâncias e covariâncias
amostrais
■ O que é análise estatística multivariada ■ Medidas de dispersão multivariadas
de dados?
■ Correlação amostral
■ Bancos de dados multivariados
■ Matriz de correlações amostral
■ Caráter multidimensional dos dados e ■ Pré-requisitos para aplicação das
importância da variabilidade técnicas de estatística multivariada
■ A matriz de dados ■ Normalidade multivariada
■ Escalas de medidas ■ Teste de Esfericidade de Bartlett
■ Técnicas multivariadas que serão
■ Vetor aleatório estudadas
■ Vetor de médias amostral
■ Variância amostral
■ Covariância amostral
2
15/09/2020
INTRODUÇÃO
4
15/09/2020
6
15/09/2020
8
15/09/2020
10
15/09/2020
Comprimento Extensão Comprimento do Comprimento comprimento da Comprimento Extensão Comprimento do Comprimento comprimento da
Pássaro Pássaro
total alar bico e cabeça do úmero quilha do esterno total alar bico e cabeça do úmero quilha do esterno
1 156 245 31,6 18,5 20,5 20 163 246 32,5 18,6 21,9
2 154 240 30,4 17,9 19,6 21 159 236 31,5 18,0 21,5
3 153 240 31,0 18,4 20,6 22 155 240 31,4 18,0 20,7
4 153 236 30,9 17,7 20,2 23 156 240 31,5 18,2 20,6
5 155 243 31,5 18,6 20,3 24 160 242 32,6 18,8 21,7
6 163 247 32,0 19,0 20,9 25 152 232 30,3 17,2 19,8
7 157 238 30,9 18,4 20,2 27 155 237 31,0 18,5 20,0
8 155 239 32,8 18,6 21,2 28 157 245 32,2 19,5 21,4
9 164 248 32,7 19,1 21,1 29 165 245 33,1 19,8 22,7
10 158 238 31,0 18,8 22,0 30 153 231 30,1 17,3 19,8
11 158 240 31,3 18,6 22,0 31 162 239 30,3 18,0 23,1
12 160 244 31,1 18,6 20,5 32 162 243 31,6 18,8 21,3
13 161 246 32,3 19,3 21,8 33 159 245 31,8 18,5 21,7
14 157 245 32,0 19,1 20,0 34 159 247 30,9 18,1 19,0
15 157 235 31,5 18,1 19,8 35 155 243 30,9 18,5 21,3
16 156 237 30,9 18,0 20,3 36 162 252 31,9 19,2 22,2
17 158 244 31,4 18,5 21,6 37 152 230 30,4 17,3 18,6
18 153 238 30,5 18,2 20,9 38 159 242 30,8 18,2 20,5
11
13
14
15/09/2020
15
Variáveis:
■ Método construtivo
■ Categoria de risco
■ Dano potencial associado
■ Altura
■ Volume
16
15/09/2020
18
15/09/2020
Reflexão...
19
A matriz de dados
■ Uma matriz de dados multivariados 𝑿 ∈ ℝ × tem a seguinte forma:
20
15/09/2020
Escalas de medida
Nominais
Não métricas
Ordinais
Escalas de
medida
Intervalar
Métricas
Razão
21
Escalas de medidas
■ Nominal: variáveis categóricas não ordenadas. Exemplos incluem o sexo do
entrevistado e a cor do cabelo.
■ Ordinal: variáveis categóricas ordenadas. Exemplos incluem classe social
(codificada de A a E, por exemplo) e nível educacional (sem escolaridade,
primário, secundário ou superior).
■ Intervalar: A escala intervalar define não só a diferenciação e ordenação dos
objetos de acordo com o atributo avaliado, mas também o tamanho da
diferença entre os objetos. Exemplos incluem altitude, QI, temperatura.
■ Razão: A escala de razão define tanto a diferenciação, ordenação e
diferença entre os objetos segundo um determinado atributo, como
considera esta distância a partir de um ponto único de origem (ponto zero).
O ponto zero representa a inexistência do atributo. Exemplos incluem
velocidade, peso, altura.
22
15/09/2020
CONCEITOS GERAIS
Vetores aleatórios e estimação de parâmetros em
dados multivariados
Vetor aleatório
■ Seja X um vetor contendo p variáveis, em que Xj é uma variável aleatória
∀ j= 1,2, … , 𝑝 . Então, X é chamado de vetor aleatório e é denotado por:
𝑋
𝑋
𝑋= ⋮ = 𝑋 𝑋 ⋯𝑋
𝑋
𝑥̅
𝑥̅
𝑥̅ = ⋮ = 𝑥̅ 𝑥 ⋯ 𝑥̅
𝑥̅
Variância amostral
■ A variância da j-ésima variável aleatória é denotada por 𝑉𝑎𝑟 (𝑋 ) = 𝑠 . A
variância fornece a informação da dispersão do valores da variável 𝑋 em
torno da média 𝑥̅ .
∑ 𝑥 − 𝑥̅
𝑉𝑎𝑟 (𝑋 ) = 𝑠 = ∴ 𝑗 = 1,2, … , 𝑝
𝑛−1
26
15/09/2020
Covariância amostral
■ A covariância entre os valores da j-ésima e k-ésima variáveis do vetor
aleatório X é definida por
∑ (𝑥 −𝑥̅ )(𝑥 − 𝑥̅ )
𝐶𝑜𝑣 𝑋 , 𝑋 =𝑠 =
𝑛−1
27
𝜎 𝜎 ⋯ 𝜎
𝜎 𝜎 ⋯ 𝜎
𝑆= ⋮
⋮ ⋱ ⋮
𝜎 𝜎 ⋯ 𝜎
28
15/09/2020
29
Correlação amostral
■ A correlação entre os valores da i-ésima e k-ésima variáveis do vetor aleatório X é
definida por:
𝑠 𝑠
𝑟 = =
𝑠𝑠
𝑠 𝑠
30
15/09/2020
Correlação amostral
31
Correlação amostral
Correlação Descrição
0 < 𝑟 < 0,30 Existe fraca correlação linear
0,30 < 𝑟 < 0,60 Existe moderada correlação linear
0,60 < 𝑟 < 0,90 Existe forte correlação linear
0,90 < 𝑟 < 1,00 Existe correlação linear muito forte
32
15/09/2020
𝑟 𝑟 ⋯ 𝑟
𝑟 𝑟 ⋯ 𝑟
𝑅= ⋮
⋮ ⋱ ⋮
𝑟 𝑟 ⋯ 𝑟
33
35
Normalidade multivariada
36
15/09/2020
Normalidade multivariada
37
Normalidade multivariada
38
15/09/2020
39
Para rejeitar a hipótese com 95% de confiança, o p-valor deve ser inferior a 0,05.
40
15/09/2020
TÉCNICAS DE ESTATÍSTICA
MULTIVARIADAS
Técnicas multivariadas
■ Técnicas de interdependência
O interesse esta na inter-relação de muitas variáveis, a fim de ser possível
avaliar associações (se forem não métricas) ou as correlações (se forem
métricas) entre elas.
■ Técnicas de dependência:
O interesse esta na determinação de modelos nos quais uma ou mais
variáveis são dependentes do comportamento de outra(s) variável(is).
42
15/09/2020
Analise de
Técnica agrupamentos
estatística
multivariada
Análise
discriminante
Dependência
Regressão
Logística
43
44
15/09/2020
45
Analise de Agrupamento
■ Analise de conglomerados ou analise de cluster
■ Dividir os elementos da amostra de forma a ter grupos de elementos
similares entre si em relação as variáveis observadas
46
15/09/2020
Analise Discriminante
■ Diferenciar populações
■ Classificar objetos em populações pré-definidas
■ A variável dependente é qualitativa, podendo ser dicotômica (sim-não)
ou multicotômica (alto-médio-baixo), e as variáveis independentes são
quantitativas.
47
Regressão Logística
■ Diferenciar populações
■ Calcular a probabilidade de objetos pertencerem a populações pré-
definidas
■ A variável dependente é qualitativa, podendo ser dicotômica (sim-não)
ou multicotômica (alto-médio-baixo), e as variáveis independentes são
qualitativas.
48