Escolar Documentos
Profissional Documentos
Cultura Documentos
Antes de qualquer análise estatística é necessário que se faça uma análise exploratória dos dados coletados.
Esta análise tem duas finalidades principais: (1) descrever e explorar as características principais dos
resultados sem uma preocupação exclusiva com os objetivos ou hipóteses do trabalho (o que não significa
que não possam ocorrer conjuntamente), e (2) investigar se um conjunto de pressupostos estatísticos está
presente nos dados. Neste último caso, verifica-se o ajustamento entre o conjunto de dados e pressupostos
estatísticos fundamentais para o uso correto das diversas técnicas estatísticas (normalidade de distribuição
das variáveis, presença de casos extremos, homocedasticidade, multicolinearidade, entre outros). Neste
texto temos o segundo objetivo (2) como nossa atividade principal. Para tanto, vamos utilizar o banco de
dados fornecido no livro de Hair, Anderson, Tatham e Black (2005) denominado HATCO. Na figura 1
abaixo está uma reprodução parcial desse banco de dados.
2. Resultados das Compras: duas medidas que refletiram os resultados das relações de
compra dos respondentes com a HATCO –
X9 – Nível de Uso – quanto do produto total da empresa é comprado da HATCO, medido
em uma escala de 100 pontos percentuais, que varia de zero a 100%;
X10 – Nível de Satisfação: nível de satisfação do comprador com as compras que realizou
junto à HATCO, medido através da mesma escala gráfica de percepções utilizada nos itens
X1 a X7.
Este documento aborda os passos para realização de exame inicial de dados e serão realizadas as análises e
serão abordados os tópicos para tratamento dos casos omissos e extremos. Na segunda parte serão
apresentados recursos para análise de pressupostos estatísticos. Serão realizadas análises a partir do SPSS e
serão comentados os resultados e as possíveis decisões a serem tomadas.
Uma lista do que fazer na análise exploratória dos dados está nos itens abaixo. Esses passos, entretanto, não
são definitivos. Em alguns casos, por exemplo, a análise preliminar dos dados pode ser feita por meio do
exame dos resíduos (diferenças entre o estimado e o observado). Nestes casos, deve-se realizar a análise
estatística principal em primeiro lugar, ao mesmo tempo em que se recorre a técnicas predominantemente
gráficas para a análise dos pressupostos. Portanto, os passos devem ser compreendidos como uma sugestão
de questões que devem ser observadas pelo pesquisador. Várias modificações e adaptações podem e devem
ser feitas.
1.1 Inspecionar as estatísticas descritivas univariadas em busca de erros de digitação, efetuando análise de:
a. Valores fora da amplitude normal
b. Médias e desvios padrão
c. Quando as médias forem muito grandes e os desvios padrão muito pequenos, verificar os
coeficientes de variação (desvio padrão dividido pela média). Realizar transformações quando o coeficiente
de variação for muito pequeno (0,0001 ou menos). As transformações dizem respeito a alterações no cálculo
da variável para corrigir desvios de normalidade, por exemplo.
1.2. Para obter as estatísticas descritivas univariadas e verificar possíveis erros de digitação deve-se obter
distribuições de freqüência de todas as variáveis por meio dos seguintes comandos do SPSS:
Analyse
Descriptives
Frequencies
Observe-se que na janela acima, figura 2, todas as variáveis, exceto a variável ID, foram transferidas
para a caixa Variable(s). Em seguida, clica-se no botão Statistics para abrir a próxima janela
Frequencies: Statistics:
Na janela acima, figura 3, foram escolhidas algumas medidas de tendência central (mean, median),
de dispersão (std. Deviation, minimum, maximum) e as duas medidas de distribuição (skewness, kurtosis).
Skewness (assimetria) diz respeito à similaridade das metades da distribuição, enquanto que Kurtosis
(curtose) diz respeito ao achatamento da mesma. Continuando, clica-se em seguida no botão Continue para
voltar à janela Frequencies:Statistics onde é escolhida a opção Charts, abrindo-se a próxima janela
Frequencies: Charts:
Na janela Frequencies: Charts acima foram escolhidas as opções Histograms: With normal
curve. Para finalizar essa primeira análise deve-se clicar no botão Continue da janela Frequencies: Charts
para voltar a janela original Frequencies onde com mais um clique no botão OK, obtém-se os resultados
relativos a análise descritiva. A seguir estão apresentados alguns dos resultados, a título de exemplo.
Após essa análise serão apresentados os resultados gráficos para averiguar dados omissos na variável.
Delivery Speed
20
15
Frequency
10
Mean = 3,515
Std. Dev. = 1,3207
0 N = 100
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0
Delivery Speed
Ao observar o gráfico é possível perceber que a distribuição, de maneira geral, obedece aos
parâmetros da curva normal. Sua distribuição de freqüência é bastante ampla com valores que variam de
0,00 até 6,1. As freqüências de cada valor são baixas. É possível perceber também que a distribuição é bi-
modal (possui dois números com maior freqüência).
Como pode ser observado na tabela, o arquivo Hatco.sav não apresenta missing.
Delivery Price Level Price Flexibility Manufac Service Salesfor Product Firm Usage Level Satisfacti Specifica Structure Type of Typ
Speed turer ce Quality Size on Level tion of Industry Buy
Image Image Buying Procure (SIC) Situ
ment
Valid 100 100 100 100 100 100 100 100 100 100 100 100 100 1
Missing
Mean 3,515 2,364 7,894 5,248 2,916 2,665 6,971 ,40 46,100 4,771 ,60 ,50 ,50 2,
Median 3,400 2,150 8,050 5,000 3,000 2,600 7,150 ,00 46,500 4,850 1,00 ,50 ,50 2,
Std. Deviation 1,3207 1,1957 1,3865 1,1314 ,7513 ,7709 1,5852 ,492 8,9888 ,8556 ,492 ,503 ,503 ,8
Skewness -,085 ,469 -,289 ,218 -,373 ,493 -,229 ,414 -,063 ,089 -,414 ,000 ,000 ,0
Std. Error of ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,2
Skewness
Kurtosis -,511 -,509 -1,073 ,085 ,141 ,107 -,850 -1,866 -,725 -,763 -1,866 -2,041 -2,041 -1,
Std. Error of ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,4
Kurtosis
Minimum ,0 ,2 5,0 2,5 ,7 1,1 3,7 25,0 3,2 1
Maximum 6,1 5,4 10,0 8,2 4,6 4,6 10,0 1 65,0 6,8 1 1 1 3
Ao realizar a análise descritiva utilizando o arquivo HATCO_MISSING (repetir o processamento efetuado até
o momento) obtém-se o resultado apresentado a seguir. Aqui é possível perceber os índices de dados
omissos do banco. Alguns índices de dados omissos ficaram acima de 5%, alcançando índices superiores a
20%. As variáveis Price Level, Price Flexibility, Manufature Image, Service, Salesforce Image, Usage Level e
Structure of Procurement possuem indices de dados omissos acima de 5%. Os casos em que estão acima de
10%, há situação começa apresentar problemas. Nesses casos é necessária a análise de aleatoriedade dos
dados omissos e avaliação das possibilidades de retirada e/ou substituição.
Statistics
Type of
Delivery Price Manufacturer Salesforce Product Satisfaction Specification Structure of Type of Buying
Speed Price Level Flexibility Image Service Image Quality Firm Size Usage Level Level Buying Procurement Industry (SIC) Situation
N Valid 96 91 80 87 91 83 75 99 89 100 96 88 99 100
Missing 4 9 20 13 9 17 25 1 11 0 4 12 1 0
Mean 3,499 2,377 7,800 5,224 2,864 2,670 6,979 ,40 46,236 4,771 ,59 ,49 ,49 2,00
Median 3,400 2,200 7,900 5,000 3,000 2,500 7,200 ,00 47,000 4,850 1,00 ,00 ,00 2,00
Mode 2,4a 2,0 8,7a 4,5 3,0a 2,5 8,4 0 47,0a 3,7 1 0 0 1a
Std. Deviation 1,2796 1,2169 1,3774 1,1167 ,7554 ,7488 1,6290 ,493 9,1204 ,8556 ,494 ,503 ,503 ,829
Skewness -,102 ,453 -,239 ,164 -,309 ,386 -,309 ,397 -,091 ,089 -,388 ,046 ,021 ,000
Std. Error of Skewness ,246 ,253 ,269 ,258 ,253 ,264 ,277 ,243 ,255 ,241 ,246 ,257 ,243 ,241
Kurtosis -,448 -,541 -1,137 ,245 ,090 ,155 -,854 -1,881 -,701 -,763 -1,889 -2,045 -2,041 -1,546
Std. Error of Kurtosis ,488 ,500 ,532 ,511 ,500 ,523 ,548 ,481 ,506 ,478 ,488 ,508 ,481 ,478
Minimum ,0 ,2 5,0 2,5 ,7 1,1 3,7 0 25,0 3,2 0 0 0 1
Maximum 6,1 5,4 9,9 8,2 4,6 4,6 10,0 1 65,0 6,8 1 1 1 3
a. Multiple modes exist. The smallest value is shown
O objetivo deste tópico é avaliar a quantidade e distribuição dos dados ausentes e o preenchimento
inadequado do questionário ou instrumento, além de identificar e eliminar casos problemáticos, substituir
dados ausentes. Um caso omisso é problemático quando ele indica que os dados faltosos estão numa
proporção alta, não são aleatórios e podem afetar algumas propriedades da variável. Na maioria das vezes,
os dados faltosos interferem na normalidade e na homocedasticidade. Uma maneira de avaliar se os dados
omissos são aleatórios é por meio da avaliação que ocorre no MVA.
2.1. O módulo MVA – Missing Value Analysis permite fazer uma análise acurada dos casos ausentes e ele é
acessado a partir dos seguintes comandos:
Analyse
Missing values analysis
Na primeira janela, separar as variáveis categóricas (não-métricas) das variáveis quantitativas (métricas).
Após esse preenchimento, clica-se na opção Descriptives e uma nova janela será aberta. Nessa janela,
serão mostradas as opções de análise para os dados ausentes. Tal procedimento pode ser observado na
figura 5. Nesta janela também é possível realizar alterações no banco de dados por meio das opções
Estimation. Nessas opções os dados omissos são tratados ou substituídos ao usar as opções Listwise,
Pairwise, EM ou Regression.
Figura 5: Missing Value Analysis
Após clicar na opção Descriptives, outra janela é aberta, conforme ilustra a figura 6. Nesta janela,
selecione todas as opções, o que garantirá uma análise da aleatoriedade dos dados omissos. O padrão do
SPSS já traz um percentual de missings acima de 5%.
Para retornar a tela da figura 5, clique na opção Continue. Na janela da figura 5, selecione a opção OK. Os
resultados das análises pelo módulo MVA são apresentados a seguir. A primeira tabela Univariate Statistics
fornece informações sobre o número de casos válidos de cada variável, a média, o desvio-padrão, a
contagem e percentual de casos ausentes e número de casos extremos (altos e baixos, considerando a
escala). Os dados observados anteriormente são repetidos por essa tabela.
Univariate Statistics
A próxima tabela faz uma análise diferença de médias entre os casos omissos e os casos válidos
de cada variável. Tal procedimento é realizado apenas para as variáveis com índices de dados
omissos acima de 5%. Esse procedimento avalia a aleatoriedade dos dados omissos. Para cada
par de variáveis quantitativas, há a estimação da diferença de médias para os grupos de dados
omissos e dados presentes. As probabilidades marcadas em amarelo ilustram os casos em que há
diferenças de médias para os grupos de dados ausentes e presentes. Essa diferença de médias
pode indicar algum parâmetro não aleatório nos dados omissos. Em síntese, as seguintes
combinações entre variáveis apresentam diferenças de médias:
X4 e X5
X6 e X1, X3, X7
X9 e X7
X12 e X4, X9
Portanto, essas combinações mostradas anteriormente necessitam serem avaliadas de uma maneira mais
acurada. Por meio de correlações, por exemplo.
Separate Variance t Testsa
x10
x1
x2
x3
x4
x5
x6
x7
x9
t -,4 . -,9 ,4 ,0 ,7 -,6 -,8 -1,2
df 8,9 . 10,4 23,6 8,1 9,7 4,4 7,9 11,3
P(2-tail) ,710 . ,382 ,662 ,969 ,525 ,559 ,420 ,273
# Present 87 91 71 78 83 78 70 81 91
# Missing 9 0 9 9 8 5 5 8 9
Mean(Present) 3,478 2,377 7,752 5,233 2,863 2,676 6,941 45,926 4,747
x2
Mean(Missing) 3,167 2,220 7,129 4,375 2,400 2,445 6,927 41,500 4,392
For each quantitative variable, pairs of groups are formed by indicator variables (present, missing).
a. Indicator variables with less than 5% missing are not displayed.
A seguir, o output do SPSS apresenta tabelas com análises da combinação entre cada variável
categórica do banco com outras variáveis do banco. Nessas tabelas é possível avaliar o percentual de dados
omissos em cada grupo das variáveis categóricas, considerando as variáveis quantitativas. Cada percentual
de dados ausentes acima de 5% em um dos grupos da variável categórica merece ser avaliado
minuciosamente. Aqui somente serão apresentados para a variável X13 – Tipo de Empresa. Todas as
variáveis apresentam percentuais de dados ausentes acima de 5%, incluindo os grupos da variável tipo de
firma.
x13
Missing
FIRM FIRM
TYPE TYPE
Total ONE TWO SysMis
x2 Present Count 91 47 43 1
Percent 91,0 94,0 87,8 100,0
Missing % SysMis 9,0 6,0 12,2 ,0
x3 Present Count 80 38 41 1
Percent 80,0 76,0 83,7 100,0
Missing % SysMis 20,0 24,0 16,3 ,0
x7 Present Count 75 39 35 1
Percent 75,0 78,0 71,4 100,0
Missing % SysMis 25,0 22,0 28,6 ,0
x6 Present Count 83 42 40 1
Percent 83,0 84,0 81,6 100,0
Missing % SysMis 17,0 16,0 18,4 ,0
x4 Present Count 87 41 46 0
Percent 87,0 82,0 93,9 ,0
Missing % SysMis 13,0 18,0 6,1 100,0
x5 Present Count 91 45 46 0
Percent 91,0 90,0 93,9 ,0
Missing % SysMis 9,0 10,0 6,1 100,0
x9 Present Count 89 44 45 0
Percent 89,0 88,0 91,8 ,0
Missing % SysMis 11,0 12,0 8,2 100,0
x12 Present Count 88 42 45 1
Percent 88,0 84,0 91,8 100,0
Missing % SysMis 12,0 16,0 8,2 ,0
Indicator variables with less than 5% missing are not displayed.
A última tabela traz uma análise do percentual de missings (dados ausentes) em cada combinação de
variáveis métricas.
Percent Mismatch of Indicator Variables.(a,b)
x2 x5 x12 x4 x9 x6 x7 x3
x2 9,00
x5 16,00 9,00
x12 17,00 15,00 12,00
x4 22,00 16,00 17,00 13,00
x9 18,00 18,00 23,00 22,00 11,00
x6 18,00 26,00 27,00 26,00 28,00 17,00
x7 26,00 30,00 35,00 32,00 36,00 12,00 25,00
x3 29,00 23,00 22,00 29,00 29,00 33,00 37,00 20,00
The diagonal elements are the percentages missing, and the off-diagonal elements are the mismatch
percentages of indicator variables.
a Variables are sorted on missing patterns.
b Indicator variables with less than 5% missing values are not displayed.
Um outro recurso na análise de casos ausentes é a identificação de dados ausentes por sujeito. Tal
procedimento oferece uma indicação de quantos sujeitos podem ser candidatos a retirada do banco.
Para verificar o número de dados ausentes por sujeito, é possível usar os seguintes comandos do SPSS.
Transform
Count
Na janela da figura 6.1, inserir o nome e o rótulo da variável a ser criada que apresentará o percentual de
dados ausentes por sujeito. Selecione Define Values para indicar os comandos que orientarão a contagem
por sujeito/caso. Na nova janela, figura 6.2, selecione System-missing e clique no Add. Aparecerá no
espaço ao lado o SYSMIS. Selecione Continue e depois OK.
Figura 6.2 – Janela Values to Count
Ao realizar essas rotinas, aparecerá no banco de dados uma nova variável com a contagem de dados
ausentes por sujeito. No que se refere ao sujeito 1, das quatorze respostas que ele deveria apresentar no
banco, afinal são quatorze variáveis, uma (1) é um dado ausente.
Esses procedimentos auxiliam o pesquisador a realizar uma análise de possível padrão de dados ausentes no
banco de dados.
Transform
Compute Variable
Após abrir a janela, dar um nome para a nova variável (V2dummy), escolher a opção Missing Values e, no
quadro abaixo, escolher novamente a opção Missing. Clicar na seta central para escolher o comando
MISSING (variable). Com esse comando será criada uma variável ao final do banco de dados, em que as
observações com casos faltosos (missing) estarão preenchidas com o número 1 e as observações com casos
completos estarão preenchidas com o número 0. A seguir escolher a variável que se deseja analisar. No
exemplo utilizamos a V1. É necessário que o procedimento seja realizado para as duas variáveis como
mostra a figura 8.
Figura 8 – Ilustração das variáveis dummy
Após a criação das duas variáveis fictícias a serem correlacionadas, é necessário pedir uma
correlação de Spearman. A correlação de Spearman é mais indicada para variáveis categóricas. Esse
procedimento é ilustrado pela figura 9 que mostra a correlação entre as duas variáveis dummy. O
procedimento inicial na rotina Analyse.
Analyse
Correlate
Bivariate
No próprio comando do MVA existem as opções de estimação dos dados ausentes. Na opção estimação, você
terá a análise dos parâmetros para substituição dos dados ausentes pelos métodos apresentados no capítulo:
listwise, pairwise, EM e regressão.
Após abrir a janela da figura 10 e inserir as variáveis nos seus respectivos espaços, escolher o método de
estimação apresentados no capítulo: listwise, pairwise, EM e regressão, conforme ilustra a figura 11.
Nessa mesma janela, selecione a opção Variables para indicar quais variáveis serão estimadas. Pelo padrão
do SPSS, esses cálculos serão realizados para as variáveis quantitativas. No exemplo, foi selecionada a
estimação Regression. Selecione a opção Regression para salvar as novas variáveis criadas em outro
banco de dados, conforme ilustra a figura 12.
Figura 11- Janela MVA e Estimação
Ao abrir a janela da figura 12, será indicado um espaço para salvar o novo arquivo a ser criado.
No output serão apresentados os parâmetros que foram utilizados para estimar os novos casos. Aqui não
serão analisados esses outputs.
4.2.Estimação pelo Replace
Outra forma de substituição é a criação de novas variáveis a partir da média e de outros cálculos. Nesse
caso é solicitada a substituição dos dados ausentes pela Média ou por variantes da média. Assim, adota-se a
opção de criar outras variáveis, ao invés de substituir diretamente pela média. Na opção Transform/
Replace Missing Value, é aberta uma janela em que você irá escolher as variáveis para substituição e o
método de substituição. Esse procedimento está na figura 15.
Transform
Replace Missing Value
Figura 16 – Ilustração do banco de dados com a nova variável sem dados ausentes.
5. Identificar e tomar providências a respeito dos casos extremos (outliers)
Os casos extremos podem ser univariados, bivariados ou multivariados. Aqui serão ilustrados
procedimentos para identificar casos extremos univariados, bivariados e multivariados. No caso dos outliers
multivariados é necessário investigar se não se trata de uma sub-amostra.
a. Outliers univariados
b. Outliers bivariados
c. Outliers multivariados (verificar se não se trata de uma sub-amostra)
Para identificar casos extremos, inicialmente, existe o procedimento de verificar os valores das respostas de
cada sujeito, considerando o total possível da escala (ex. escala de 10 pontos, 7 itens do questionário = 70
pontos; valor mínimo= 7 pontos). Criar uma nova variável com o somatório das respostas de cada sujeito e
verificar sujeitos com valores muito altos e muito baixos. Esse procedimento permite identificar casos
extremos. Valores muito altos estão próximos ao total do somatório e valores muito baixo se situam abaixo
ou em torno do valor mínimo do somatório. Para realizar esse somatório serão somadas as sete primeiras
variáveis do banco HATCO – Percepção sobre a HATCO (escala de 10 pontos e 7 atributos = 70 pontos) (x1,
X2, X3, X, 4, X5, X, 6, X7). Esses procedimentos se encontram na figura 17.
Uma nova variável será criada no banco de dados como mostra a figura 18.
Figura 18 – Ilustração da variável somatório
Analyse
Descriptives
Explore
Ao escolher essa opção abre-se uma janela e as variáveis a serem analisadas por meio de gráficos deverão
ser inseridas no espaço de dependent variable. A opção plots deverá ser marcada na janela. Depois,
clique na opção plots e abrir-se-á uma nova janela. Ao abrir a janela, marque as opções boxplot (factors
together) e stem and leaf. Essa rotina se encontra na figura 19.
Figura 20 – Janela
Explore: Plots
No arquivo output, serão apresentados os gráficos para todas as variáveis. Somente será analisado o
gráfico para a variável Salesforce Image por se tratar de uma variável que apresenta casos extremos. Na
primeira tabela é apresentada uma visão geral dos casos. Como pode ser visto, não há dados ausentes na
variável.
Cases
Valid Missing Total
N Percent N Percent N Percent
Salesforce Image 100 100,0% 0 ,0% 100 100,0%
Em seguida, é apresentado o gráfico Ramo e Folha. Há uma freqüência superior a 4,00 para os casos
extremos. Eles assumem valores superiores a 4,4.
Na análise do boxplot, esses casos ficam bem identificados por seus números no banco de dados.
5,0
5
82
4,0
3,0
2,0
1,0
Salesforce Image
Os casos 5,7, 35 e 82, são casos extremos univariados. Seus valores se encontram acima de dois desvios-
padrão, muito próximos de 2,5 desvios.
Analyse
Descriptives
Descriptives
Graphs
Scatterplot/DOT
Ao seguir o menu, aparecerá uma janela, figura 22.1, que indica o tipo de gráfico que será elaborado.
Escolha Simple Scatter . Ainda nessa janela, escolha a opção Define. Ao abrir outra janela, insira as
variáveis a serem analisadas/associadas.
Na janela Simple Scatter, especifique as variáveis a serem associadas. No caso Qualidade do produto e
Velocidade de entrega.
Figura 22.2 - Janela Simple Scatter
Ao clicar em Ok, o gráfico aparecerá no output. Para inserir o intervalo de confiança e especificar os casos
extremos, editar o gráfico quando clicar duas vezes sobre ele.
10,0
9,0
8,0
Product Quality
7,0
6,0
5,0
4,0
3,0
Delivery Speed
Ao aparecer o editor de gráfico como na figura X, selecionar a opção Add a Fit Line at Total.
10,0
9,0
8,0
Product Quality
7,0
6,0
5,0
4,0
R Sq Linear = 0,233
3,0
Delivery Speed
Os casos que estiverem fora do espaço entre as linhas externas, serão casos extremos dessa distribuição.
Os outliers multivariados serão verificados pela distância Mahalanobis. Para calcular a distância mahalanobis
será necessário usar a rotina de regressão com uma variável fictícia.
Analyse
Regression
Linear
A distância mahalanobis é obtida por meio da realização de uma regressão linear fictícia em que a VD
(variável dependente) é a variável ID (identificação do sujeito) e as VI’s serão todas as variáveis (inclusive
as transformadas). O método da regressão a utilizar é o Method: Enter, conforme mostra a figura 23.
Ainda na primeira janela, figura 23, marcar a opção save que permitirá assinalar a opção mahalanobis
distance.
Save
Mahalanobis
Continue
OK
Na janela Save, figura 24, há a opção mahalanobis distance. Ao marcar essas opções, o resultado será
uma nova variável. Observação: Será criada uma coluna (mah 1). Para se verificar a distância a partir da
qual os outliers serão considerados multivariados, consulta-se a tabela C4 (tabela do valor do qui-quadrado).
Para encontrar o valor a ser utilizado como referência é necessário consultar a tabela tendo como parâmetros
os graus de liberdade (número de VIs) e o valor para a probabilidade de p < 0,001. Encontra-se o valor, o
qual é usado para identificação dos outliers. No caso são 14 graus de liberdade e a probabilidade de p <
0,001. Tal valor é 36.123. A figura 24.1 mostra a distância mahalanobis criada no banco de dados.
Figura 24 – Janela Save
Na figura 26, há os procedimentos para diferenciar os casos extremos. Para diferenciar outlier dos não
outlier, realizar uma recodificação na variável que identificará os valores da distância mahalanobis acima de
36,123.
Transforme
Recode
Into Same Variables
Seleciona Dummy
Figura 26 – Janela Recode into Same Variable
If
Include if case satisfied condition
mah 1 >= ( verificar o valor na tabela, no caso 36,123)
A seguir os valores acima de 36,123 serão recodificados na variável dummy pelo número 1. A figura 28
mostra a recodificação dos casos extremos pelo valor 1.
Continue
Old and New Values
Old Value . 0 > New Value .1
Add
Continue
OK
Figura 28 – Janela Recode into Same Variable: Old and New Values
Finalmente, há a opção de selecionar os casos que são considerados outliers multivariados. Selecionar os
casos considerados outliers multivariados. Na primeira janela, assinalar a opção if the condition is
satisfied. A seleção dos casos extremos ocorre na figura 29.
Data
Select Case > if > (dummy (ou o nome que foi atribuído no passo anterior) = O)
Ao abrir uma nova janela, figura 30, inserir a condição se dummy = 0. Os casos que são outliers
serão retirados da amostra. A partir daí pode-se calcular as descritivas e fazer um teste t entre os outliers e
os outros casos. Para trabalhar com o banco a partir desse ponto, pode-se optar por filtrar ou deletar os
casos. tal medida ocorre na opção Unselected Cases Are: Filtered/Deleted. A opção deletar retira
completamente esses casos do banco de dados.
Figura 30 – Janela Select Cases: If
Para identificar as variáveis que são influenciadas pelos outliers multivariados, realizar uma nova regressão,
tendo a variável dummy como VD. Esse procedimento deve ser realizado com uma regressão logística. A
variável dependente é dicótoma. Os resultados são os mesmos. Contudo, para fins de ilustração será
realizada uma regressão linear. A figura 31 ilustra o procedimento da regressão fictícia.
Analyse
Regression
Linear
VD = Dummy, VI = Todas as variáveis da pesquisa
Method: Stepwise
OK
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) ,107 ,097 1,105 ,272
Delivery Speed ,448 ,034 4,204 13,144 ,000
Price Level ,460 ,035 3,907 12,979 ,000
Price Flexibility -,016 ,013 -,154 -1,221 ,225
Manufacturer Image -,030 ,016 -,245 -1,898 ,061
Service -,943 ,067 -5,036 -14,090 ,000
Salesforce Image ,014 ,021 ,077 ,685 ,495
Product Quality -,012 ,007 -,137 -1,677 ,097
Usage Level ,008 ,003 ,527 2,906 ,005
Satisfaction Level ,009 ,022 ,053 ,403 ,688
Specification Buying ,086 ,035 ,302 2,474 ,015
Structure of Procurement ,012 ,046 ,042 ,252 ,802
Type of Industry (SIC) -,009 ,018 -,034 -,531 ,597
Type of Buying Situation -,071 ,026 -,417 -2,745 ,007
a. Dependent Variable: dummy
Recomendações Práticas
A ordem na qual o exame dos dados ocorre pode ser modificada provocando diferentes resultados.
Em uma situação onde existem variáveis com distribuições não normais e outliers em potencial, pode-se
transformar as variáveis ou eliminar os casos outliers primeiro. A transformação de variáveis em primeiro
lugar em geral diminui o número de outliers. A eliminação ou modificação dos outliers em primeiro lugar
pode diminuir o número de variáveis com distribuições não normais. Embora autores tais como Tabachnick e
Fidell prefiram as transformações em primeiro lugar, é recomendável verificar se os outliers multivariados
(quando houver) não constituem outra população. Neste caso, é recomendável eliminá-los da análise antes
de examinar as distribuições.