Você está na página 1de 23

Análise exploratória de dados

Silvio Saranga
Faculdade de Educação Física e Desporto
ssaranga@up.ac.mz ou silviosaranga@gmail.com
Objetivos

(1) analisar a estatística descritiva (medidas tendência


central e de dispersão);

(2) verificar a normalidade da distribuição dos valores da


variável em estudo (assimetria, achatamento, teste de
normalidade)

(3) verificar a existência de valores extremos (outliers)

(4) representar e analisar graficamente os valores da


variável em estudo
Distribuição Normal

Qual a sua importância?

- Retrata com boa aproximação, as distribuições de


frequência de muitos fenómenos naturais e físicos

- Serve como aproximação das probabilidades binomiais


(sim ou não) quando n é grande

- Representa a distribuição das médias e proporções em


grandes amostras, o que tem relevante implicação na
amostragem (a mais importante)
Distribuição Normal

Curva normal

50% 50%

 média 

Forma de uma boca de sino


Área sob a curva = 1 (0,5 + 0,5)
Média = Mediana = Moda
Média = µ; Desvio padrão = 
Distribuição Normal - caraterísticas

- A curva normal tem a forma de sino

- É simétrica em relação a média

- Prolonga-se de - a + (apenas em teoria) (assintótica)

- A área total sob a curva é considerada 100% ou igual a 1

- A área sob a curva entre dois pontos é a probabilidade de uma variável


normalmente distribuída tomar um valor entre esses pontos

- A probabilidade de uma variável aleatória normalmente distribuída tomar


exatamente determinado valor (pontual) é zero (característica da
distribuição contínua)

- A área sob a curva entre a média e um ponto arbitrário é função do


número de desvios padrões entre a média e aquele ponto
Análise exploratória em
SPSS
Base de dados SPSS
Para efetuar a análise exploratória de dados no menu
ANALYZE há uma opção específica - explore
(no módulo da estatística descritiva)
Passos a seguir

Identificação de outliers

Caso se pretenda realizar a análise


exploratória em função de uma
variável independente

Teste formal da normalidade da distribuição

Histograma
Sumário das observações válidas (valid), omissas
(missing) e totais
Média
Int. Confiança - limite inferior
(95%) - limite superior
Média aparada a 5%
Mediana
Variância
Desvio padrão
Mínimo
Máximo
Amplitude
Amplitude interquartilica
Assimetria
Achatamento

Statistic
±2
Std.Error

Na Assimetria e no Achatamento... sempre que o quociente


entre o Statistic e o Std.Error for superior a 2 suspeita-se da
existência de problemas de normalidade na distribuição
Quadro dos valores extremos (máximos e mínimos

O valor mais elevado de


Percgordura é de 50.8% (do
sujeito nº40) e o mais baixo é
de 21.2% (do sujeito nº 37)
Teste estatístico formal à normalidade da distribuição

Se n > 50 é sugerido o teste Se o n < 50 é sugerido o teste


Kolmogorov-Smirnov Shapiro-Wilk

H0 = a distribuição cumpre a normalidade


H1 = a distribuição não cumpre a normalidade

Dado que o valor de prova (sig.) para o teste de Kolmogorov-


Smirnov foi de 0.200 e que é superior a 0.05, aceita-se a H0. A
distribuição dos valores da Percgordura cumpre a normalidade
Diagrama de caule
Histograma (Steam) e folhas (Leaf)

Cada folha corresponde a 1 caso)

• 2 sujeitos com 50%


• 6 sujeitos (4 com 45%, 1 com 46% e 1
com 48%)
A distribuição esperada dos A distribuição dos sujeitos
valores dos sujeitos situa-se parece equilibrada acima e
perto da linha diagonal (verde) abaixo da linha horizontal
(ver a escala!)
Diagrama de extremos e quartis (caixa de bigodes)

Valor adjacente superior

Percentil 75
Percentil 50 (mediana)
Percentil 25

Valor adjacente inferior

Permite perceber
• A normalidade ou assimetria da distribuição
• “Tamanho” da variabilidade da distribuição
• Tendência do valor central
• Presença de outliers
Um novo exemplo com 1 sujeito
candidato a outlier

Variável - VO2max
Estatística Descritiva
Média = 46.8 ml/kg/min

Mediana = 45.6 ml/kg/min

Statistic
Assimetria =
Std.Error

1.366
=
0.343

Na Assimetria e no Achatamento como o quociente entre o


Statistic e o Std.Error é superior a 2 suspeita-se da existência
de problemas de normalidade na distribuição
Quadro dos valores extremos (máximos e mínimos

O valor mais elevado de VO2max é de


97 ml/kg/min (do sujeito nº8) e o
mais baixo é de 27.4 ml/kg/min (do
sujeito nº 29)
Teste estatístico formal à normalidade da distribuição

Se n < 50 o teste Shapiro-Wilk é o sugerido

H0 = a distribuição cumpre a normalidade

H1 = a distribuição não cumpre a normalidade

Dado que o valor de prova (sig.) para o teste de Shapiro-Wilk foi


de 0.001 e que é inferior a 0.05, rejeita-se a H0. A distribuição dos
valores do VO2max não cumpre a normalidade
Diagrama de caule
Histograma (Steam) e folhas (Leaf)

1 sujeito extremo
A distribuição esperada dos A distribuição dos sujeitos não
valores com a exceção de um equilibrada acima e abaixo da
sujeito situa-se perto da linha linha horizontal
diagonal (verde)
Diagrama de extremos e quartis (caixa de bigodes)

Candidato a outlier

Valor adjacente superior

Percentil 75
Percentil 50 (mediana)
Percentil 25
Valor adjacente inferior

Você também pode gostar