Você está na página 1de 12

1

Universidade de Caxias do Sul


Programa de Pós-graduação em Administração
Disciplina: Métodos Quantitativos de Pesquisa
Profa. Dra. Maria Emilia Camargo

1. EXPLORANDO DADOS – TENDÊNCIA CENTRAL, DISPERSÃO E GRÁFICOS NO SPSS

Clique em Analyze -> Descriptive Statistics -> Frequencies....

- Na janela Frequencies, selecione todas as variáveis desejadas, para que apareçam no campo
“Variable(s):”
- Clique em “Statistics...” e na nova janela selecione as medidas que deseja calcular, depois clique em
“Continue”
- Clique em “Charts...” selecione “Histograms:” e “With normal curve”, depois clique em “Continue” o
Clique em “OK”

- Para explorar os dados através de agrupamentos clique em Analyze -> Descriptive Statistics ->
Explore...

- Adicione no campo “Variables” as variáveis a serem analisadas e no campo “Factor” a variável de


agrupamento.
- Clique em “Statistics...” e na nova janela selecione as medidas que deseja calcular, depois clique em
“Continue”
- Clique em “Charts...” selecione “Histograms:” e “With normal curve”, depois clique em “Continue”

Clique em Graphs -> Legacy Dialogs -> Boxplot...


- Marque a opção “Summaries of separate variables”
- Selecione todas as variáveis de interesse para o campo “Boxes Represent:”
- Clique em “Options...” e selecione a opção “Exclude cases variable by variable”, depois clique em
“Continue”
- Clique em “OK”
2

2. TESTE DE NORMALIDADE

Análise da normalidade – como executar

É necessário analisar se uma variável tem ou não distribuição normal. Assim, selecionam-se os comandos
de acordo com a imagem a seguir.

Em seguida é aberta uma janela, onde se escolhe a variável cuja distribuição pretende-se analisar,
conforme imagem a seguir:
3

Em Statistics, selecione Descriptives. Continue

Escolha a opção Plots, em Boxplots – dai escolha Factor levels together; em Descriptive escolha Stem-
and-leaf e Histogram. Escolha, ainda, Normality plots with tests e Continue.
Colocar em Ok para obter o output da análise.
4

A tabela Test of Normality mostra o resultado de dois testes de normalidade: Kolmogorov-Smirnov e o


Shapiro-Wilk.
Os dois testes testam a hipótese de que os dados apresentam uma distribuição normal. No caso de
amostras menores (<50 casos), o teste Shapiro-Wilk é mais poderoso. A sig. deverá ser superior a 0,05 ou
0,01, dependendo do nível de significância utilizado.
No output irá encontrar o valor do teste e a significância. Se a sig. for superior a 0,05 então as variáveis
em estudo seguem uma distribuição normal

Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
ValorAPT
,155 81 ,000 ,855 81 ,000
O
AREA ,107 81 ,023 ,957 81 ,008
IDADE ,123 81 ,004 ,928 81 ,000
ENERGIA ,186 81 ,000 ,943 81 ,001
a. Lilliefors Significance Correction

Neste caso como Sig<0,05 nenhuma variável é normal.


5

O comando Explore produz ainda uma sequência de gráficos, como o histograma (equivale à
representação gráfica de uma tabela de freqüências) e o boxplot (caixa de bigodes).

Quanto ao boxplot: é a representação em forma de gráficos dos quartis da distribuição; apresenta de forma
compacta, diversas informações sobre um conjunto de dados.

A caixa é formada pela mediana (linha central) e pelos quartis inferior e superior (percentis 25 e 75).

A mediana dá uma estimativa de tendência central; a altura das caixas (percentil 75 percentil 25 é a
amplitude interquartil (interquatil e range) e estima a variabilidade dos dados.

A presença ou não de simetria é dada pela posição da mediana (central ou mais próxima dos quartis).
As linhas verticais que saem da caixa são conhecidas como whiskers (bigodes de gato em inglês).

Nas séries assimétricas, os dados máximos e mínimos distanciam-se das hinges de Tukey (percentil 75-
percentil 25), sendo os seus valores assinalados separadamente no boxplot com um pequeno círculo
(outliers) e os valores que se distanciam substancialmente são considerados extremos (extremes) e são
assinalados com um asterisco (Figura a seguir).

Observa-se valores discrepante e extremo.


6

Não observa-se valores discrepante e extremo.

Não observa-se valores discrepante e extremo.


7

Não observa-se valores discrepante e extremo.

Uso do Box-plot para detectar outliers


8

Determinação de Valores Atípicos

A regra que adotamos para identificação dos valores atípicos se baseia na amplitude interquartil AIQ,
definida como a distância entre o primeiro e o terceiro quartis:
AIQ = Q3 – Q1

Note que AIQ é o comprimento da caixa. Quaisquer valores abaixo de Q1 ou acima de Q3 por mais de
1,5×AIQ serão considerados valores atípicos e terão tratamento especial no boxplot.

Assim, serão valores atípicos os valores x tais que x < Q1 – 1,5×AIQ ou x > Q3 + 1,5×AIQ Os valores
que se encontram entre (Q1 – 1,5×AIQ) e (Q3 + 1,5×AIQ) são chamados valores adjacentes e sua
representação se completa (lembre-se de que já representamos os 50% centrais com a caixa!) traçando
uma linha que vai de Q1 até o menor valor adjacente (isto é, o valor mínimo dos dados, excluídos os
valores atípicos) e outra que vai de Q3 até o maior valor adjacente (isto é, o valor máximo dos dados,
excluídos os valores atípicos).

Referências
SHAPIRO, S.S.; WILK, M.B. An analysis of variance test for normality (complete samples). Biometrika,
v.52, p.591-611, 1965.

Fávero, L.P.; Belfiore, P.; Silva, F.L. da; Chan, B.L. Análise de dados: modelagem multivariada para
tomada de decisões. Rio de Janeiro: Elsevier, 2009. 646p.

FERREIRA, D.F. Estatística multivariada. Lavras: UFLA, 2008. 662p.


HAIR, J.F.; Black, W.C.; Babin, B.J.; Anderson, R.E.; Tatham, R.L. Análise multivariada de dados. 6.ed.
Porto Alegre: Bookman, 2009. 688p.
9

2. MULTICOLINEARIDADE

O tema multicolinearidade, batizado por Frish (1934) designa a existência de uma “relação perfeita” ou
“exata” entre algumas ou todas as variáveis explicativas (independentes) do modelo de regressão.

- Por que o modelo de regressão linear clássico pressupõe a ausência de multicolinearidade entre as
variáveis independentes os x’s?

Se a multicolinearidade for perfeita, os coeficientes da regressão das variáveis x’s são indeterminados e
seus erros-padrão infinitos.

Se a multicolinearidade for menos que perfeita, o coeficiente de regressão embora determinado, terão
grandes erros-padrão (com relação aos próprios coeficientes), o que significa que os coeficientes não
podem ser estimados com grande precisão ou exatidão.

2.1 Fontes de multicolinearidade

- O método de coleta de dados: tomar uma amostragem com uma faixa limitada de valores pelos
regressores da população;
- Restrições do modelo ou da população amostral: regressão do consumo de energia elétrica contra renda e
tamanho da residência;
- Especificação do modelo: acréscimos de termos polinomiais de um modelo, sobretudo quando a
amplitude da variável x for pequena;

Observação: outro motivo de multicolinearidade é o caso de séries temporais, pode ser que os
regressores apresentem uma tendência comum (aumentam ou diminuem ao longo do tempo).

2.2 Conseqüências práticas da multicolinearidade

Em casos de quase ou de alta multicolinearidade, é muito provável que nos deparamos com as seguintes
conseqüências:

1- Embora sejam estimadores lineares não viesados, os estimadores de MQO têm grandes variâncias e
covariâncias, tornando difícil uma estimação precisa;
10

2- Devido à conseqüência 1, os intervalos de confiança tendem a ser muito mais amplos, levando à
aceitação imediata da hipótese nula igual a zero (isto é, o verdadeiro coeficientes populacionais igual a
zero);

3- Também, devido à conseqüência 1, a razão t de um ou mais coeficiente tende a ser estatisticamente


insignificante;

4- Embora a razão t de um ou mais coeficientes seja estatisticamente insignificante, R2 , a medida geral da


qualidade do ajustamento, pode ser muito alto;
Estimadores de MQO e seus erros padrão podem ser sensíveis a pequenas alterações nos dados.

- A velocidade com que as variâncias e covariâncias aumentam pode ser entendida como um fator de
inflação da variância (FIV):

Este fator mostra como a variância de um estimador é inflacionada pela presença da multicolinearidade.

À medida que a colinearidade aumenta, a variância de um estimador aumenta, e no limite, pode tornar-se
infinita.

- O fator de inflação da variância e outra notação usada é VIFj . Assim, o VIFj é dado por

Verificamos que VIFj mede o quanto a variância do coeficiente é inflacionada por sua colinearidade.
Geralmente, o VIF é indicativo de problemas de multicolinearidade se VIF>10, mas alguns autores
consideram VIF>5.

Assim Fatores de inflação de variância (VIF) medem o quanto a variância dos coeficientes de regressão
estimados está inflada em comparação a quando as variáveis preditoras não são relacionadas linearmente.
Use para descrever quanta multicolinearidade (correlação entre preditores) existe em uma análise de
regressão. A multicolinearidade é problemática porque pode aumentar a variância dos coeficientes de
regressão tornando-os instáveis e difíceis de interpretar.
Pode-se usar as seguintes orientações para interpretar o VIF:
11

VIF Status dos preditores

VIF = 1 Não correlacionados

1 < VIF < 5 Moderadamente correlacionados

VIF > 5 a 10 Altamente correlacionados

- O inverso do FIV é denominado de “Tolerância” (TOL).

Quando a colinearidade é perfeita:

.
Quando não existe colinearidade. Aproximado de 1.

1.3 No SPSS
12

Coefficientsa
Model Unstandardized Standardize t Sig. Collinearity Statistics
Coefficients d
Coefficients
B Std. Error Beta Tolerance VIF
(Constant) -160,181 31,986 -5,008 ,000
AREA 1,481 ,083 ,847 17,850 ,000 ,901 1,110
1
IDADE -3,064 ,740 -,190 -4,138 ,000 ,959 1,042
ENERGIA ,877 ,197 ,209 4,459 ,000 ,918 1,089
a. Dependent Variable: ValorAPTO

As variáveis independentes não são colineares, pois o VIF< 5 e o fator de tolerância está próximo de 1.