Você está na página 1de 24

15/09/2020

INTRODUÇÃO À ANÁLISE
ESTATÍSTICA MULTIVARIADA DE
DADOS

Sumário
■ O que é análise multivariada de dados? ■ Matriz de variâncias e covariâncias
amostrais
■ O que é análise estatística multivariada ■ Medidas de dispersão multivariadas
de dados?
■ Correlação amostral
■ Bancos de dados multivariados
■ Matriz de correlações amostral
■ Caráter multidimensional dos dados e ■ Pré-requisitos para aplicação das
importância da variabilidade técnicas de estatística multivariada
■ A matriz de dados ■ Normalidade multivariada
■ Escalas de medidas ■ Teste de Esfericidade de Bartlett
■ Técnicas multivariadas que serão
■ Vetor aleatório estudadas
■ Vetor de médias amostral
■ Variância amostral
■ Covariância amostral
2
15/09/2020

INTRODUÇÃO

O que é análise multivariada de dados?

■ Os negócios e indústria devem ser lucrativos, produtivos e fornecer bens e


serviços de qualidade.

■ Para isso é necessário o gerenciamento de conhecimento de forma eficaz.

■ A informação disponível na tomada de decisões explodiu nos últimos anos e


até muito recentemente muito dessa informação não era coletada,
desaparecia ou não era explorada.

■ Hoje, isso mudou e bancos de dados vem sendo construídos e alimentados.

4
15/09/2020

O que é análise multivariada de dados?

A analise grande quantidades de dados multivariados é conhecida


genericamente por “data mining”. Ela consiste no processo de explorar
grandes quantidades de dados à procura de padrões consistentes. A
análise estatística multivariada é um “braço” desses tipos de analises.

Grande parte dessa informação pode ser analisada e compreendida com


estatística simples, mas uma grande porção demanda técnicas
multivariadas para converter tais dados em conhecimento.
(Hair et al., 2009)

O que é análise multivariada de dados?

“A grande importância em se realizar analises multivariadas


encontra-se na possibilidade de extrair a informação presente
no relacionamento conjunto das variáveis.”
Pereira (2019)

6
15/09/2020

O que é análise estatística multivariada


de dados?
“Consiste em um conjunto de métodos estatísticos utilizados
em situações nas quais várias variáveis são medidas
simultaneamente, em cada elemento amostral. Em geral, as
variáveis são correlacionadas entre si e quanto maior o
número de variáveis, mais complexa torna-se a análise por
métodos comuns de estatística univariada.”
(Mingoti, 2005)

O que é análise estatística multivariada


de dados?
“Refere-se a todas as técnicas estatísticas que
simultaneamente analisam múltiplas medidas sobre
indivíduos ou objeto sob investigação. Assim, qualquer análise
simultânea de mais do que duas variáveis pode ser
considerada, a princípio, como multivariada. Muitas técnicas
multivariadas são extensões de análises univariadas e
bivariadas.”
(Hair et al., 2009)

8
15/09/2020

O que são bancos de dados


multivariados?

■ São bancos de dados onde p variáveis são obtidas para n


elementos amostrais.

■ As variáveis devem ser correlacionadas.

Bancos de dados multivariados


■ Pardais sobreviventes de tempestade
Após uma forte tempestade em 1º de fevereiro de 1898, diversos pardais
moribundos foram levados por um pesquisador ao laboratório na Universidade
de Brown em Rhode Island.
Subsequentemente cerca de metade dos pássaros morreram, e este
pesquisador viu isso como uma oportunidade de encontrar suporte para a
teoria de seleção natural de Charles Darwin.
Banco de dados composto por 49 elementos amostrais (pássaros): pássaros de
1 a 21 sobreviveram, pássaros de 22 a 49 morreram.
Variáveis: comprimento total, extensão alar, comprimento do bico e cabeça,
comprimento do úmero, comprimento da quilha do esterno.

10
15/09/2020

Bancos de dados multivariados


■ Pardais sobreviventes de tempestade

Comprimento Extensão Comprimento do Comprimento comprimento da Comprimento Extensão Comprimento do Comprimento comprimento da
Pássaro Pássaro
total alar bico e cabeça do úmero quilha do esterno total alar bico e cabeça do úmero quilha do esterno
1 156 245 31,6 18,5 20,5 20 163 246 32,5 18,6 21,9
2 154 240 30,4 17,9 19,6 21 159 236 31,5 18,0 21,5
3 153 240 31,0 18,4 20,6 22 155 240 31,4 18,0 20,7
4 153 236 30,9 17,7 20,2 23 156 240 31,5 18,2 20,6
5 155 243 31,5 18,6 20,3 24 160 242 32,6 18,8 21,7
6 163 247 32,0 19,0 20,9 25 152 232 30,3 17,2 19,8
7 157 238 30,9 18,4 20,2 27 155 237 31,0 18,5 20,0
8 155 239 32,8 18,6 21,2 28 157 245 32,2 19,5 21,4
9 164 248 32,7 19,1 21,1 29 165 245 33,1 19,8 22,7
10 158 238 31,0 18,8 22,0 30 153 231 30,1 17,3 19,8
11 158 240 31,3 18,6 22,0 31 162 239 30,3 18,0 23,1
12 160 244 31,1 18,6 20,5 32 162 243 31,6 18,8 21,3
13 161 246 32,3 19,3 21,8 33 159 245 31,8 18,5 21,7
14 157 245 32,0 19,1 20,0 34 159 247 30,9 18,1 19,0
15 157 235 31,5 18,1 19,8 35 155 243 30,9 18,5 21,3
16 156 237 30,9 18,0 20,3 36 162 252 31,9 19,2 22,2
17 158 244 31,4 18,5 21,6 37 152 230 30,4 17,3 18,6
18 153 238 30,5 18,2 20,9 38 159 242 30,8 18,2 20,5

11

Bancos de dados multivariados


■ Pardais sobreviventes de tempestade
Tomando os dados como um exemplo para ilustrar métodos multivariados,
surgem muitas questões interessantes.
a) Como estão relacionadas as varias variáveis? Por exemplo, um valor grande
para uma das variáveis tende a ocorrer com valores grandes para as outras
variáveis?
b) Os sobreviventes e os não sobreviventes têm diferenças estatisticamente
significantes para seus valores médios das variáveis?
c) Se os sobreviventes e não sobreviventes diferem em termos das
distribuições das variáveis, então é possível construir alguma função
dessas variáveis que separe os dois grupos? Então seria conveniente se
valores grandes da função tendessem a ocorrer com os sobreviventes. Por
fim a função seria então, aparentemente, um índice de ajuste darwiniano
dos pardais.
12
15/09/2020

Bancos de dados multivariados


■ Bancos de dados geotécnicos
Em diversos taludes de rocha foram levantadas as suas características
geomecânicas, geometria e fatores externos. Além disso, sua condição
de estabilidade é conhecida.
O banco de dados é composto por 88 elementos amostrais (taludes
rochosos).
Variáveis: resistência à compressão uniaxial (P1); espaçamento (P2),
abertura (P3), persistência (P4), rugosidade (P5), preenchimento (P6),
orientação das descontinuidades (P7), alteração (P8), condição de água
subterrânea (P9), método de desmonte empregado na mina (P10), altura
e inclinação (P11), condição de estabilidade (P12).

13

Bancos de dados multivariados


■ Bancos de dados geotécnicos
Talude P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 status
1 73 0,75 12,5 3 2 1 2 5 1 1 170 30 OF
2 100 0,75 25 3 3 2 3 5 2 1 170 20 ST
3 100 1,5 22,5 1 3 2 3 5 2 1 130 21 ST
4 70 1,2 22,5 1 4 3 4 5 1 1 190 47 ST
5 81 1,1 12,5 3 4 3 2 4 1 1 190 40 OF
6 96 1,25 25 6,5 3 3 2 4 1 1 185 40 OF
7 72 1,3 12,5 3 4 3 3 4 2 1 230 40 OF
8 54 1,25 7,5 3 3 3 3 5 2 1 175 45 ST

14
15/09/2020

Bancos de dados multivariados


■ Bancos de dados geotécnicos de mina
a) Como estão relacionadas as varias variáveis? Por exemplo, um valor grande
para uma das variáveis tende a ocorrer com valores grandes para as outras
variáveis?
b) Os taludes estáveis e instáveis têm diferenças estatisticamente
significantes para seus valores médios das variáveis?
c) E possível construir alguma função ou modelo baseados nesses dados de
modo a discriminar os dois grupos? E essa função ser aplicada para
determinação das condições de estabilidade de novos taludes?

15

Bancos de dados multivariados


■ Bancos de dados do Cadastro nacional de barragens

Constituído pelas 425 barragens de rejeito atuais + 2 barragens


rompidas em 2015 e 2019 com características no instante da ruptura

Variáveis:
■ Método construtivo
■ Categoria de risco
■ Dano potencial associado
■ Altura
■ Volume

16
15/09/2020

Bancos de dados multivariados


■ Bancos de dados do Cadastro nacional de barragens
Método Categoria de Dano potencial Volume atual
Barragem Altura atual (m)
construtivo risco associado (m3)
0-1 1 1 2 27700000 22,00
103 (Cruz) 1 1 2 924000 10,30
111 (Índio) 1 1 2 48873 5,00
158 A-1 2 1 3 53380000 30,00
161 A-2 1 1 2 1018054 22,00
444 A-3 1 1 2 886241 14,70
81-1 1 1 2 75522 4,00
Pau D’Arco 1 1 2 52800 18,00
Barragem da cava 2 1 2 1755555 25,00
Mario Cruz 3 2 2 25366731 28,00
Fundão (Germano) 4 1 3 91866000 130
B1 (Córrego do Feijão) 4 1 3 11700000 86
17

Bancos de dados multivariados

■ Bancos de dados do Cadastro nacional de barragens


a) Como estão relacionadas as varias variáveis? Por exemplo, um valor grande para
uma das variáveis tende a ocorrer com valores grandes para as outras variáveis?
b) Quais são as barragens atuais com características estatisticamente semelhantes
às barragens que se romperam?
c) E possível hierarquizar as barragens em relação ao quão semelhantes elas são às
barragens rompidas para fins de fiscalização?

18
15/09/2020

Caráter multidimensional dos dados e


importância da variabilidade

Reflexão...

19

A matriz de dados
■ Uma matriz de dados multivariados 𝑿 ∈ ℝ × tem a seguinte forma:

■ em que o elemento xij e a observação da j-ésima variável para a i-ésima


unidade amostral.
■ O tamanho amostral é igual a n e o número de variáveis é igual a p.

20
15/09/2020

Escalas de medida

Nominais
Não métricas
Ordinais
Escalas de
medida
Intervalar
Métricas
Razão

21

Escalas de medidas
■ Nominal: variáveis categóricas não ordenadas. Exemplos incluem o sexo do
entrevistado e a cor do cabelo.
■ Ordinal: variáveis categóricas ordenadas. Exemplos incluem classe social
(codificada de A a E, por exemplo) e nível educacional (sem escolaridade,
primário, secundário ou superior).
■ Intervalar: A escala intervalar define não só a diferenciação e ordenação dos
objetos de acordo com o atributo avaliado, mas também o tamanho da
diferença entre os objetos. Exemplos incluem altitude, QI, temperatura.
■ Razão: A escala de razão define tanto a diferenciação, ordenação e
diferença entre os objetos segundo um determinado atributo, como
considera esta distância a partir de um ponto único de origem (ponto zero).
O ponto zero representa a inexistência do atributo. Exemplos incluem
velocidade, peso, altura.
22
15/09/2020

CONCEITOS GERAIS
Vetores aleatórios e estimação de parâmetros em
dados multivariados

Vetor aleatório
■ Seja X um vetor contendo p variáveis, em que Xj é uma variável aleatória
∀ j= 1,2, … , 𝑝 . Então, X é chamado de vetor aleatório e é denotado por:

𝑋
𝑋
𝑋= ⋮ = 𝑋 𝑋 ⋯𝑋
𝑋

■ Quando se tem um vetor aleatório, cada variável pode ser avaliada


separadamente. No entanto, é importante analisar todo o vetor, uma vez
que podem haver relacionamentos interessantes entre as p variáveis.
■ A matriz de dados e composta por realizações do vetor aleatório.
24
15/09/2020

Vetor de médias amostral


■ Seja um vetor aleatório 𝑋 = 𝑋 𝑋 ⋯ 𝑋 , o vetor 𝑥̅ é denominado
de vetor de médias amostral do vetor X.

𝑥̅
𝑥̅
𝑥̅ = ⋮ = 𝑥̅ 𝑥 ⋯ 𝑥̅
𝑥̅

■ Onde 𝑥̅ é a média amostral da j-ésima variável aleatória.


1
𝑥̅ = 𝑥 ∴ 𝑗 = 1,2 … , 𝑝
𝑛
25

Variância amostral
■ A variância da j-ésima variável aleatória é denotada por 𝑉𝑎𝑟 (𝑋 ) = 𝑠 . A
variância fornece a informação da dispersão do valores da variável 𝑋 em
torno da média 𝑥̅ .

∑ 𝑥 − 𝑥̅
𝑉𝑎𝑟 (𝑋 ) = 𝑠 = ∴ 𝑗 = 1,2, … , 𝑝
𝑛−1

26
15/09/2020

Covariância amostral
■ A covariância entre os valores da j-ésima e k-ésima variáveis do vetor
aleatório X é definida por

∑ (𝑥 −𝑥̅ )(𝑥 − 𝑥̅ )
𝐶𝑜𝑣 𝑋 , 𝑋 =𝑠 =
𝑛−1

■ É uma medida linear de relação entre as variáveis aleatórias 𝑋 e 𝑋 .

27

Matriz de variâncias e covariâncias


amostrais
■ A matriz de variâncias de covariâncias do vetor aleatório X é denotada por:

𝜎 𝜎 ⋯ 𝜎
𝜎 𝜎 ⋯ 𝜎
𝑆= ⋮
⋮ ⋱ ⋮
𝜎 𝜎 ⋯ 𝜎

■ A matriz de covariâncias é uma matriz simétrica, ou seja 𝜎 = 𝜎

28
15/09/2020

Medidas de dispersão multivariadas


■ A matriz S e uma generalização multivariada da noção univariada de
variância, medindo a dispersão sobre a média.
■ No entanto, as vezes, é conveniente ter um único número para medir a
dispersão multivariada.
■ Duas importantes medidas podem ser utilizadas para este fim:

■ A variância generalizada desempenha um papel importante na estimação


por máxima verossimilhança e a variação total e um conceito útil na analise
de componentes principais.

29

Correlação amostral
■ A correlação entre os valores da i-ésima e k-ésima variáveis do vetor aleatório X é
definida por:

𝑠 𝑠
𝑟 = =
𝑠𝑠
𝑠 𝑠

■ É uma medida linear de relação entre as variáveis aleatórias 𝑋 e 𝑋 e assume


valor entre -1 e 1.
■ Quando j = 𝑘, 𝜌 =1

30
15/09/2020

Correlação amostral

31

Correlação amostral

Correlação Descrição
0 < 𝑟 < 0,30 Existe fraca correlação linear
0,30 < 𝑟 < 0,60 Existe moderada correlação linear
0,60 < 𝑟 < 0,90 Existe forte correlação linear
0,90 < 𝑟 < 1,00 Existe correlação linear muito forte

32
15/09/2020

Matriz de correlações amostral

■ A matriz de variâncias de covariâncias do vetor aleatório X é denotada por:

𝑟 𝑟 ⋯ 𝑟
𝑟 𝑟 ⋯ 𝑟
𝑅= ⋮
⋮ ⋱ ⋮
𝑟 𝑟 ⋯ 𝑟

■ A matriz de covariâncias é uma matriz simétrica, ou seja 𝑟 = 𝑟

33

PREPARAÇÃO PARA APLICAÇÃO


DE TÉCNICAS MULTIVARIADAS
15/09/2020

Pré-requisitos para aplicação das


técnicas de estatística multivariada
■ Banco de dados consistente
A amostra deve apresentar tamanho igual ou maior a cinco vezes o número de
variáveis

■ Correlações significativas entre as variáveis

■ Para algumas técnicas, existe o pressuposto de normalidade multivariada

35

Normalidade multivariada

■ Generalização da distribuição de normal univariada

■ Para a distribuição normal univariada com média μ e variância σ2, a função de


densidade de probabilidade é dada por

36
15/09/2020

Normalidade multivariada

■ Generalização da distribuição de normal univariada

37

Normalidade multivariada

■ Distribuição de normal bivariada

38
15/09/2020

Teste de Esfericidade de Bartlett

H0: R = I, não existe correlação suficiente para aplicação de técnica multivariada

Ha: R ≠ I, existe correlação suficiente para aplicação da técnica multivariada.

39

Teste de Esfericidade de Bartlett


H0: R = I, não existe correlação suficiente para aplicação de técnica multivariada
Ha: R ≠ I, existe correlação suficiente para aplicação da técnica multivariada.

Em que 𝑛 é o tamanho da amostra, 𝑝 é o número de variáveis e |𝑹| é o determinante


da matriz de correlação.
A estatística do teste apresenta distribuição qui-quadrado (𝜒2 ) com graus de liberdade
igual a 𝑑𝑓 = [𝑝(𝑝−1)]/2 .

Para rejeitar a hipótese com 95% de confiança, o p-valor deve ser inferior a 0,05.
40
15/09/2020

TÉCNICAS DE ESTATÍSTICA
MULTIVARIADAS

Técnicas multivariadas

■ Técnicas de interdependência
O interesse esta na inter-relação de muitas variáveis, a fim de ser possível
avaliar associações (se forem não métricas) ou as correlações (se forem
métricas) entre elas.

■ Técnicas de dependência:
O interesse esta na determinação de modelos nos quais uma ou mais
variáveis são dependentes do comportamento de outra(s) variável(is).

42
15/09/2020

Técnicas estatísticas multivariadas


Componentes
principais

Interdependência Análise fatorial

Analise de
Técnica agrupamentos
estatística
multivariada
Análise
discriminante
Dependência
Regressão
Logística

43

Técnicas estatísticas multivariadas

Analise de Componentes Principais (Pearson, 1901)


■ Explicar a estrutura de variâncias e covariâncias dos dados através de
combinações lineares
■ Redução da dimensão dos dados de p variáveis para k componentes
principais não correlacionadas, ordenadas decrescentemente pela
explicação da variabilidade total dos dados

44
15/09/2020

Técnicas estatísticas multivariadas

Analise Fatorial (Spearman, 1904)


■ Explicar a variabilidade original dos dados através de fatores que meçam
aspectos comuns dos dados
■ Com varias motivações na psicologia e psicometria, surgiu inicialmente
com a necessidade de medir quantidades latentes (por exemplo:
ansiedade, inteligência)

45

Técnicas estatísticas multivariadas

Analise de Agrupamento
■ Analise de conglomerados ou analise de cluster
■ Dividir os elementos da amostra de forma a ter grupos de elementos
similares entre si em relação as variáveis observadas

46
15/09/2020

Técnicas estatísticas multivariadas

Analise Discriminante
■ Diferenciar populações
■ Classificar objetos em populações pré-definidas
■ A variável dependente é qualitativa, podendo ser dicotômica (sim-não)
ou multicotômica (alto-médio-baixo), e as variáveis independentes são
quantitativas.

47

Técnicas estatísticas multivariadas

Regressão Logística
■ Diferenciar populações
■ Calcular a probabilidade de objetos pertencerem a populações pré-
definidas
■ A variável dependente é qualitativa, podendo ser dicotômica (sim-não)
ou multicotômica (alto-médio-baixo), e as variáveis independentes são
qualitativas.

48

Você também pode gostar