Você está na página 1de 80

Explorao e Transformao

de dados
EXPLORAO E TRANSFORMAO DE DADOS

A DISTRIBUIO NORMAL
EXPLORAO E TRANSFORMAO DE DADOS

Normal

99%
95%
68%

Z-score -3,29 -2,58 -1,96 1,96 2,58 3,29


EXPLORAO E TRANSFORMAO DE DADOS

Normal

A distribuio normal corresponde a um modelo terico ou ideal obtido a


partir de uma equao matemtica, e no de uma pesquisa e coleta de
dados.

Pode ser usada para descrever distribuies de escores, interpretar o


desvio-padro e fazer afirmaes probabilsticas.

fundamental para a tomada de deciso estatstica, mais


especificamente, para generalizao de resultados de amostras para
populaes.
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal

1) A varivel aleatria poder assumir qualquer valor real.

2) A apresentao grfica da distribuio normal corresponde a uma


curva em forma de sino, denominada tambm de Curva de Gauss ou
Curva de Moivre.

3) simtrica em torno da mdia: obtm-se a mesma ordenada (Y) e o


mesmo valor de probabilidade para dois valores de x.
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal (continuao)

Curva Normal ou Gaussiana.


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal (continuao)

4) A curva normal admite uma nica ordenada mxima (pico), situada


na mdia, e assim as medidas de tendncia central (mdia, moda e
mediana) so iguais.

5) Quanto mais os valores se afastam da mdia (pico) tendem a se


tornar mais raros.
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal (continuao)

6) A distribuio normal, em sua representao grfica, apresenta


sempre dois pontos de inflexo (modificao da tendncia em relao ao
eixo das abscissas) e assinttica em relao ao eixo da varivel x (no
toca o eixo x varia de - a + ).
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal (continuao)

Curva Normal: assinttica e com dois pontos de inflexo.

Ponto de Ponto de
inflexo inflexo

Assntota (- ) Assntota (+ )
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal (continuao)

7) A rea total sob a curva corresponde proporo 1 ou


porcentagem 100%.

rea total sob a curva

100%
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Caractersticas da Distribuio Normal (continuao)

8) A probabilidade de ocorrer valor maior ou menor que a mdia


equivalente, sendo igual a 0,50 ou 50%.

50% 50%
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Importncia da Distribuio Normal

1) As medidas originrias de diversos processos aleatrios seguem


essa distribuio ( um ideal terico para a pesquisa cientfica).

2) A distribuio amostral de estatsticas, ao se aproximar da


normalidade, serve de base para a inferncia estatstica, visto que se
busca generalizar para a populao os dados obtidos na amostra.
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Curva Normal Padronizada (escore-padro)

Para reduzir a infinidade de curvas normais possveis a partir de tal


modelo (visto que se trabalham com mdias e desvios-padro) utiliza-se
um recurso para tornar comparveis as diversas curvas normais.

ESCORE-PADRO OU DESVIO REDUZIDO (z)


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Curva Normal Padronizada (escore-padro)

O escore-padro indica, em unidades de desvio-padro, o sentido e a


intensidade com que determinado resultado bruto se afasta da mdia da
distribuio qual pertence.

z escore- padro

X -X X determinado resultado bruto


z X mdia da distribuio
s
s desvio - padro da distribuio
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Curva Normal Padronizada (escore-padro)

Exemplo: um conjunto de notas de QI tem distribuio normal, com


mdia 100 e desvio-padro 15. Qual o escore padro de um indivduo
que tenha obtido no teste de inteligncia empregado X = 120, e como
este dado deve ser interpretado.

X -X 120 - 100
z z 1,33
s 15
Uma pessoa com 120 de QI est + 1,33 desvio-padro acima da mdia.
EXPLORAO E TRANSFORMAO DE DADOS

Normal rea sob a Curva Normal


EXPLORAO E TRANSFORMAO DE DADOS

Normal

rea sob a Curva Normal - relaes entre os valores de z.

Para z 1,96 0,95 ou 95% da rea total.

rea fora do limite 0,05 ou 5% da rea total.

Para z 2,58 0,99 ou 99% da rea total.

rea fora do limite 0,01 ou 1% da rea total.


EXPLORAO E TRANSFORMAO DE DADOS

Normal

rea sob a Curva Normal - relaes entre os valores de z.

Para z 1,96 => 0,95 ou 95% da rea total.


EXPLORAO E TRANSFORMAO DE DADOS

Normal

rea sob a Curva Normal - relaes entre os valores de z.

Para z 2,58 => 0,99 ou 99% da rea total.


EXPLORAO E TRANSFORMAO DE DADOS

Normal

rea sob a Curva Normal - relaes entre os valores de z.

rea fora do limite = 0,05 ou 5% da rea total.


EXPLORAO E TRANSFORMAO DE DADOS

Normal

rea sob a Curva Normal - relaes entre os valores de z.

rea fora do limite = 0,01 ou 1% da rea total.


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Permitem resolver dois tipos de problemas:

1) Qual a proporo ou rea correspondente a determinado(s) valor(es)


da distribuio?

2) Qual (is) o(s) valor(es) da distribuio correspondente(s) a


determinada(s) rea(s) ou proporo(es)?
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: um teste de inteligncia foi aplicado em um grupo de 50


estudantes de uma srie. Os resultados obtidos apresentaram uma
distribuio aproximadamente normal, com mdia 50 e desvio-padro 6.

a) Qual a proporo de alunos com notas superiores a 60?

b) Qual o nmero de alunos com notas compreendidas entre 35 e 45?


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual a proporo de alunos com notas superiores a 60?

1) Transforma-se a nota 60 em desvio-reduzido:

X -X 60 - 50
z z 1,67
s 6
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual a proporo de alunos com notas superiores a 60?

Localizao da rea da curva normal 1,67 acima da mdia

rea da curva normal acima do desvio reduzido z = 1,67


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual a proporo de alunos com notas superiores a 60?

2) Encontra-se o dado na Tabela referente rea entre a origem e um


valor determinado de z:

rea total compreendida entre a origem e z = 1,67: 0,45254


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal


Exemplo: Qual a proporo de alunos com notas superiores a 60?
Tabela (rea entre a origem e um valor determinado de z)
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal


Exemplo: Qual a proporo de alunos com notas superiores a 60?
Tabela (rea entre a origem e um valor determinado de z)

rea total compreendida entre a origem e z = 1,67: 0,45254


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual a proporo de alunos com notas superiores a 60?

3) Subtrai-se a rea total entre a origem e + para determinar a rea


desejada:

0,500000 0,45254 = 0,04746 4,75%

Porcentagem de alunos com notas superiores a 60


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual o nmero de alunos com notas compreendidas


entre 35 e 45?
1) Calculam-se os desvios reduzidos:

35 - 50
X 35 z1 2,50
6

45 - 50
X 45 z2 0,83
6
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual o nmero de alunos com notas compreendidas


entre 35 e 45?
Localizao da rea da curva normal entre 2,50 e 0,83
EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual o nmero de alunos com notas compreendidas


entre 35 e 45?

2) Encontram-se na Tabela os dados referentes rea entre a origem


e os valores determinados de z:

rea total compreendida entre a origem e z1 = - 2,50: 0,49379

rea total compreendida entre a origem e z2 = - 0,83: 0,29673


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual o nmero de alunos com notas compreendidas


entre 35 e 45?

3) Subtraem-se as reas encontradas:

0,49379 0,29673 = 0,19706 19,71%

Porcentagem de alunos com notas entre 35 e 45


EXPLORAO E TRANSFORMAO DE DADOS

Normal

Tabelas da Curva Normal

Exemplo: Qual o nmero de alunos com notas compreendidas


entre 35 e 45?

4) Multiplica-se a porcentagem total encontrada pelo tamanho da


amostra:

19,71% x 50 = 9,86

Por se tratar de uma varivel discreta, deve-se arredondar para


10, ou seja, 10 alunos possuem notas entre 35 e 45.
EXPLORAO E TRANSFORMAO DE DADOS

Normal
Aplicaes

Teoria da Amostragem: segundo o Teorema Central do Limite, quando n


30, o uso da distribuio normal garantido para a estimativa de
mdias e propores populacionais.

Testes de Hipteses: testar hipteses sobre mdias ou diferenas entre


mdias de dois ou mais grupos.
EXPLORAO E TRANSFORMAO DE DADOS

Distribuio Normal Testes paramtricos

Explorao de Dados
EXPLORAO E TRANSFORMAO DE DADOS

Pressupostos de um teste paramtrico:

1) Distribuio normal (ou aproximadamente


normal) dos dados.
EXPLORAO E TRANSFORMAO DE DADOS

Pressupostos de um teste paramtrico:

2) Independncia entre as unidades de anlise.


Ex.: O comportamento de um participante no
pode influenciar o comportamentos de outro
participante.

3) Dados quantitativos (intervalares ou de razo).

4) Homogeneidade das varincias


(homoscedasticidade): as varincias devem ser as
mesmas para as diferentes populaes
consideradas.
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade


de uma distribuio?

1) Estudar a assimetria e a curtose da distribuio


EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 1) Estudar a assimetria e a curtose da distribuio

Assimetria e Curtose = 0 (zero) Distribuio perfeitamente normal

50% 50%
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 1) Estudar a assimetria e a curtose da distribuio
Coeficiente de assimetria: grau de deformao de uma distribuio
Escalas de Assimetria:
| AS | < 0,15 => assimetria pequena
0,15 < | AS | < 1 => assimetria moderada
| AS | > 1 => assimetria elevada

Assimetria positiva: Assimetria negativa:


valores esquerda valores direita
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 1) Estudar a assimetria e a curtose da distribuio
Coeficiente de curtose: grau de achatamento de uma distribuio
Curtose positiva: Curtose negativa:
distribuio leptocrtica distribuio platicrtica

K = 0,049 K = -0,968
EP = 0,535 EP = 0,717
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade


de uma distribuio?

2) Procurar valores atpicos (outliers)


EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 2) Procurar valores atpicos (outliers)

Um valor atpico (outlier) um escore que se dispersa


bastante dos demais escores de uma distribuio, podendo
enviesar significativamente a mdia amostral.

Como identificar um caso outlier?

1) Estudar graficamente a distribuio de frequncias: BOXPLOT

2) Transformar os escores brutos em escores-z.


EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 2) Procurar valores atpicos (outliers)
BOXPLOT: Apresenta diversas informaes sobre o
conjunto dos dados.
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade


de uma distribuio?

3) Ajustar a distribuio
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 3) Ajustar a distribuio
1) A princpio, deve-se verificar possveis erros de digitao.

Se no houver erros de digitao:


Possibilidades

a) Remover o caso outlier, entendendo que ele no pertence


populao investigada.

b) Substituir o valor (ex.: substituir pelo prximo escore mais alto


adicionado de um; inverter o valor do escore-z; substituir pela mdia
mais dois desvios-padro).

c) Transformar os dados.
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade


de uma distribuio?

4) Realizar testes de normalidade


EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 4) Realizar testes de normalidade
So duas as tcnicas mais comumente empregadas para o teste da
hiptese de normalidade. Ambas testam a hiptese de que os dados
da amostra esto normalmente distribudos, baseando-se no valor
absoluto da diferena mxima entre a distribuio cumulativa
observada e a distribuio cumulativa esperada, assumindo o
pressuposto da normalidade.

observada esperada
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 4) Realizar testes de normalidade
Testes para a hiptese de normalidade:

a)Kolmogorov-Smirnov (K-S): 50 casos

b)Shapiro-Wilk < 50 casos

H0 = A caracterstica em estudo da populao segue a


distribuio normal (ou no h diferenas significativas entre
a frequncia observada e a esperada)

H1 = A caracterstica em estudo da populao no segue a


distribuio normal (ou h diferenas significativas entre a
frequncia observada e a esperada)
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 4) Realizar testes de normalidade
Tais estatsticas baseiam-se na maior diferena absoluta
entre a frequncia acumulada observada e a estimada pela
distribuio normal.

Se p > 0,05 = corrobora H0 (distribuio normal)

Se p 0,05 = corrobora H1 (distribuio no normal)


EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 4) Realizar testes de normalidade
LIMITAO DE TAIS TESTES

Com amostras grandes muito fcil obter valores


significativos a partir de pequenos desvios de normalidade.

Assim, um resultado significativo no necessariamente nos


informa se o desvio da normalidade suficiente para prejudicar
os procedimentos estatsticos que sero aplicados futuramente
aos dados.
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade


de uma distribuio?

5) Realizar o teste de homoscedasticidade


EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 5) Realizar o teste de homoscedasticidade

Caso tenham sido coletados grupos de dados, a varincia da


varivel critrio deve ser a mesma em cada um desses grupos.

Ex.: As varincias entre homens e mulheres deve ser a mesma


para a mdia geral de desejo de permanncia na organizao.

O teste mais comumente empregado para o teste da


homoscedasticidade o teste de Levene, o qual testa a
hiptese nula de que a varincia entre os grupos a mesma
(diferena entre as varincias igual a zero).
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 5) Realizar o teste de homoscedasticidade
Teste de Levene
Se p > 0,05 = corrobora H0 (varincias so homogneas)

Se p 0,05 = corrobora H1 (varincias no so homogneas)

LIMITAO DO TESTE DE LEVENE


Assim como o teste K-S, quando o tamanho da amostra
grande, pequenas diferenas entre os grupos podem produzir
um teste de Levene significativo.

SOLUO
EXPLORAO E TRANSFORMAO DE DADOS

Como testar a hiptese de normalidade de uma distribuio?


Passos 5) Realizar o teste de homoscedasticidade
Teste de Levene

Calcular a razo das varincias: dividir o valor da maior


varincia entre os grupos do valor da menor varincia.
Ex.:
r = 0,536/0,486
r = 1,10

Se r < 2, h
homogeneidade
das varincias
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade de


uma distribuio no SPSS
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS

SPSS:

Menu ANALYZE

Comando Explore

Analyze > Descriptive Statistics > Explore


EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS

Caso se deseje testar a normalidade de uma nica


varivel, independentemente da sua distribuio entre
grupos:
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Clicar em Statistics:
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Selecionar outliers e Continue:
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Clicar em Plots:
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Selecionar Histogram e Normality Plots with tests:
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Clicar em OK:
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Output
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Output

Apresenta os cinco
outliers superiores e os
cinco inferiores
EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Output

p < 0,05 (significativo) => distribuio no-normal


EXPLORAO E TRANSFORMAO DE DADOS

Testando a hiptese de normalidade no SPSS


Output
EXPLORAO E TRANSFORMAO DE DADOS

Normal Q-Q Plot


Qualquer desvio dos pontos em relao linha reta diagonal
representa um desvio da normalidade.

Quando a linha fica de forma


consistente abaixo da diagonal
ou acima, mostra-se que a
curtose diferente de uma
distribuio normal.

Quando os pontos apresentarem


uma forma de S, mostra-se
assimetria.
EXPLORAO E TRANSFORMAO DE DADOS

Detrended Normal Q-Q Plot

Espera-se uma
distribuio em torno
de 0,00 e um equilbrio
na disperso dos
escores acima e
abaixo de 0,00.
EXPLORAO E TRANSFORMAO DE DADOS

Box Plot
EXPLORAO E TRANSFORMAO DE DADOS

Transformando Dados no SPSS


EXPLORAO E TRANSFORMAO DE DADOS

Transformando Dados
EXPLORAO E TRANSFORMAO DE DADOS

Transformando Dados
Transform > Compute

Numeric Expression Adiciona-se a constante 1 para


assegurar que todos os valores so
LG10(varivel + 1) ou
maiores do que zero.

SQRT(varivel)

1/(varivel + 1) => recproca

importante comparar a distribuio


original com a distribuio transformada,
a fim de verificar se houve um ajuste
significativo para os dados.
EXPLORAO E TRANSFORMAO DE DADOS

Comparao entre dados originais e transformados

Ass = 0,051 Transformao


aumentou a Ass e a K. Ass = -0,627
K = 0,872 K = 1,753
EXPLORAO E TRANSFORMAO DE DADOS

Teste da Homoscedasticidade entre grupos


EXPLORAO E TRANSFORMAO DE DADOS

Teste da Homoscedasticidade
Inserir varivel que possui os grupos para teste da homogeneidade
das varincias da varivel critrio
EXPLORAO E TRANSFORMAO DE DADOS

Teste da Homoscedasticidade

Untransformed: o teste de Transformed: o teste de


Levene ser realizado com Levene ser realizado com
os dados brutos os dados transformados
EXPLORAO E TRANSFORMAO DE DADOS

Teste da Homoscedasticidade

p > 0,05 (no-significativo) => varincias homogneas


entre homens e mulheres
Comunicao do Teste de Levene:
F (df1, df2) = valor

F (1, 1860) = 1,823, p > 0,05.


EXPLORAO E TRANSFORMAO DE DADOS

Se, aps todas estas tcnicas, sua


distribuio for no-normal, considere
utilizar os TESTES NO-PARAMTRICOS

Você também pode gostar