Caderno Apoio SPSS

Marketing
ESTATÍSTICA II
CADERNO DE APOIO A AULAS PRÁTICAS
SPSS
Núcleo de Métodos Quantitativos
Margarida Arraes Viegas
2016/2017
Escola Superior de Gestão Hotelaria e Turismo - Universidade do Algarve
Estatística I - Revisões
Fonte: Edições Silabo
Estatísticas sumárias
ANALYZE
DESCRIPTIVE STATISTICS
► FREQUENCIES
Dá-nos distribuições de frequências para todos os tipos de dados (não
agrupados) e ainda opções para estatísticas adicionais, gráficos de barras e
histogramas.
Marketing - Caderno de Apoio a Aulas Práticas SPSS

Margarida Viegas - NMQ
|1|
Idade dos inquiridos
Statistics
idade
N Valid 10
Missing 0
Mean 24,90
Median 22,00
Mode 22
Std. Deviation 6,773
Variance 45,878
Skewness 1,334
Std. Error of Skewness ,687
Kurtosis 1,635
Std. Error of Kurtosis 1,334
Range 22
Minimum 18
Maximum 40
25 19,75
Percentiles 50 22,00
75 30,00
NOTA: Para saber se uma variável é simétrica dividimos o coeficiente assimetria

(Skewness) pelo erro padrão (Std. Error of Skewness) e se o resultado estiver entre 2 e
-2 a distribuição é simétrica. Para saber se uma variável é mesocurtica dividimos o
coeficiente de achatamento (Kurtosis) pelo erro padrão (Std. Error of Kurtosis) e se o
resultado estiver entre 2 e -2 a distribuição é mesocurtica.

|2|
► DESCRIPTIVES
Esta opção só se aplica a variáveis quantitativas:
Os resultados são:
► EXPLORE
Além das várias medidas descritivas é ainda possivel calcular um intervalo de
confiança para a média. Se selecionar Plots pode ainda pedir o stem-and-leaf, o box-
and-whisker e o histograma.

|3|
Descriptives
Statistic Std. Error

idade Mean 24,90 2,142
95% Confidence Lower Bound 20,05

Interval for Mean Upper Bound 29,75
5% Trimmed Mean 24,44
Median 22,00
Variance 45,878
Minimum 18
Maximum 40
Range 22
Interquartile Range 10
Skewness 1,334 ,687
Kurtosis 1,635 1,334
idade Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 1. 89
5,00 2. 02226
2,00 3. 00
1,00 4. 0
Stem width: 10
Each leaf: 1 case(s)
Note que no box-and-whisker os "bigodes" vão até ao menor e maior valores,

que não são classificados como outliers ou extremos. Um outlier é referenciado por O
(é definido como um valor que dista da caixa mais do que 1.5 ´ o seu comprimento) e
um valor extremo por * (é definido como um valor que dista da caixa mais do que 3 ´
o seu comprimento). O nº que aparece associado a qualquer destes símbolos indica

|4|
qual o caso outlier/extremo (no nosso exemplo não existem outliers de qualquer
espécie).
Esta opção (EXPLORE), permite ainda agrupar uma variável quantitativa de

acordo com as categorias duma variável qualitativa.
► CROSSTABS
Esta opção gera tabelas de contingência para dados qualitativos. A tabela

apresenta os valores absolutos por cada célula e os totais em linha e coluna. Se
pretender que as células apresentem as % em linha e/ou em coluna, e também as %
relativamente ao total, escolha a opção Cells e marque as respetivas opções. Na opção
Statistics pode selecionar os coeficientes de associação para variáveis nominais (Phi,
Contingência e Cramer) e efetuar o teste χ2, que será referido posteriormente.
sexo dos inquiridos * nacionalidade Crosstabulation

nacionalidade
Ingleses alemães Total
sexo dos masculino Count 4 2 6
inquiridos % within sexo dos inquiridos 66,7% 33,3% 100,0%
% within nacionalidade 66,7% 50,0% 60,0%
% of Total 40,0% 20,0% 60,0%
feminino Count 2 2 4
% within sexo dos inquiridos 50,0% 50,0% 100,0%
% of Total 20,0% 20,0% 40,0%
Total Count 6 4 10
% within sexo dos inquiridos 60,0% 40,0% 100,0%
% of Total 60,0% 40,0% 100,0%
Symmetric Measures
Value Approx. Sig.
Nominal by Nominal Phi ,167 ,598
Cramer's V ,167 ,598
Contingency Coefficient ,164 ,598

N of Valid Cases 10

|5|
Análise de Associações
Para Variáveis Nominais: Coeficiente Phi, Coeficiente de Contingência e V de Crámer
ANALYZE
CROSSTABS
O output apresenta, para além da tabela de contingência, um quadro com os valores

dos coeficientes pedidos e respetivas significâncias:
Symmetric Measures
Value Approx. Sig.

Nominal by Phi ,408 ,197
Nominal Cramer's V ,408 ,197
Contingency Coefficient ,378 ,197
N of Valid Cases 10
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null
hypothesis.
Para Variáveis Ordinais: Coeficiente de Spearmen e Kendall's tau

ANALYZE
CORRELATE
BIVARIATE
Correlations
importância classificação
atribuída ao sol e atribuída ao sol e
praia praia
Kendall's tau_b importância atribuída ao sol e Correlation Coefficient 1,000 ,623*
praia Sig. (2-tailed) . ,026
N 10 10
classificação atribuída ao sol e Correlation Coefficient ,623* 1,000
praia Sig. (2-tailed) ,026 .
N 10 10
Spearman's rho importância atribuída ao sol e Correlation Coefficient 1,000 ,744*
praia Sig. (2-tailed) . ,014
N 10 10

|6|
classificação atribuída ao sol e Correlation Coefficient ,744* 1,000

praia Sig. (2-tailed) ,014 .
N 10 10
*. Correlation is significant at the 0.05 level (2-tailed).
Para Variáveis Quantitativas: Coeficiente de Pearson
ANALYZE
CORRELATE
BIVARIATE
Correlations
importância
atribuída ao
IDADE sol e praia
IDADE Pearson Correlation 1 -,643*
Sig. (2-tailed) , ,045
N 10 10
importância atribuída Pearson Correlation -,643* 1
ao sol e praia Sig. (2-tailed) ,045 ,
N 10 10
*. Correlation is significant at the 0.05 level (2-tailed).

|7|
Estatística II - Inferência
Intervalo de Confiança para média duma população
ANALYZE
EXPLORE
Considere os dados dos alunos que frequentam a disciplina de Análise de Mercado do

mestrado em Marketing Digital e que constam do ficheiro: Alunos1.sav. Assuma que o
grupo de 30 alunos é uma amostra aleatória do conjunto dos alunos que frequentam
esta disciplina. Apresente uma estimativa para a idade média destes alunos.
Selecione a variável idade para Dependent List e em Statistics defina o nível de

confiança desejado (95%, por defeito). Em Display selecione apenas statistics (não
necessitamos dos plots/gráficos).
Descriptives
Statistic Std. Error
idade Mean 29,90 1,133
95% Confidence Interval for Lower Bound 27,58
Mean Upper Bound 32,22
5% Trimmed Mean 30,07
Median 31,50
Variance 38,507
Minimum 19
Maximum 38
Range 19
Interquartile Range 12
Skewness -,564 ,427
Kurtosis -1,045 ,833

|8|
Pode pois afirmar-se, com uma confiança de 95%, que a totalidade dos alunos que
frequentam a disciplina de Análise de Mercado do mestrado em Marketing Digital,
apresentam uma idade média entre os 28 e os 32 anos.
Teste t para uma amostra:
Suponha que o docente responsável pela disciplina de Análise de Mercado pretendia

averiguar se os resultados obtidos no “1º trabalho”, para a totalidade dos alunos que
frequentam esta disciplina, haviam atingido a média global de 14 valores. Com base na
amostra fornecida, o teste a realizar (para um nível de significância de 5%) seria:
H0: μ = 14
H1: μ < 14 (pois =12.7)
COMPARE MEANS
ONE-SAMPLE t-test
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
trab_1 30 12,709 3,2725 ,5975
One-Sample Test
Test Value = 14
95% Confidence Interval of the

Difference
t df Sig. (2-tailed) Mean Difference Lower Upper
trab_1 -2,161 29 ,039 -1,2913 -2,513 -,069
O One-Sample Test executado pelo SPSS é sempre um teste bilateral, logo, nos casos
em que pretendemos um teste unilateral, teremos que dividir a significância observada
por 2. Neste caso: = 0.0195. Para concluir quanto à rejeição, ou não, da

|9|
hipótese nula só temos que comparar este valor com o nível de significância usado no
ensaio (a=0.05). O que conclui?
● Suponha agora que o docente considera que a “média da classificação final” obtida
pelos alunos na disciplina é de 13 valores. No entanto, após calcular a média final da
classificação dos 30 alunos, o docente verificou que esta se situava nos 14 valores. Será
que, face a este valor amostral, o docente poderá concluir que a classificação média
final obtida pelos alunos na disciplina é superior a 13 valores?
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean

media 30 13,7719 1,66979 ,30486
One-Sample Test
Test Value = 13
95% Confidence Interval of the
Difference
t df Sig. (2-tailed) Mean Difference Lower Upper

media 2,532 29 ,017 ,77187 ,1484 1,3954
Teste t para duas amostras:
Este teste pode ser aplicado em duas situações distintas:

A) Se pretendermos comparar duas variáveis, num mesmo grupo de casos ®
teste t para amostras dependentes ou emparelhadas (paired-samples t test);
B) Se pretendermos comparar dois grupos diferentes de casos, relativamente a
uma variável ® teste t para amostras independentes (independent-samples t test).
[Ficheiro: Descritivas-1.sav]

|10|
A) Suponhamos que pretendemos averiguar se existem diferenças significativas entre

a importância que os turistas atribuem ao fator sol e praia ("Sopra"), quando escolhem
o Algarve como destino de férias (expetativa) e a avaliação que fazem deste mesmo
atributo após a sua estadia (“Clasopra”):
ANALYZE
COMPARE MEANS
PAIRED-SAMPLES T TEST
Selecione simultaneamente as variáveis referidas. O output apresenta um primeiro

quadro com algumas estatísticas para as duas variáveis consideradas separadamente e
o seguinte:
Paired Samples Test

Paired Differences
95% Confidence Interval
Std. Std. Error of the Difference Sig. (2-
Mean Deviation Mean Lower Upper t df tailed)
Pair classificação
1 atribuída ao sol e
praia - importância ,500 ,972 ,307 -,195 1,195 1,627 9 ,138
atribuída ao sol e
praia
Como já sabemos, a H0 em estudo refere-se à igualdade das médias. Para concluir

quanto à rejeição, ou não, desta hipótese só temos que comparar a significância
apresentada no output com o nível de significância usado no ensaio (a=0.05). O que
conclui?
B) Suponhamos agora que pretendemos averiguar se existem diferenças entre os

turistas ingleses e alemães ao nível da classificação atribuída ao Algarve enquanto
destino turístico:
ANALYZE
COMPARE MEANS
INDEPENDENT-SAMPLES T TEST
´

|11|
A variável teste (Test Variable) é pois a Classificação do Algarve e a variável de

agrupamento (Grouping Variable) a Nacionalidade. Resta definir os valores dos
grupos: click em Define Groups e digite o valor 1 na caixa Group1 e 2 na caixa Group 2.
O output inicia-se com algumas estatísticas para os dois grupos considerados

separadamente. Uma vez que um dos pressupostos para um teste t válido, é o da
homogeneidade da variância, o output apresenta também o teste de Levene para a
homogeneidade da variância: se o valor de F não for significante (p>0.05), as variâncias
podem considerar-se homogéneas e a leitura do resultado do teste t faz-se na linha
Equal Variances. Se p<0.05, não se pode considerar o pressuposto pelo que a leitura
dos resultados far-se-á na linha Unequal Variances.

Independent Samples Test

Levene's Test for
Equality of
Variances t-test for Equality of Means
95% Confidence
Mean Interval of the
Sig. (2- Differenc Std. Error Difference
F Sig. t df tailed) e Difference Lower Upper
classificação geral Equal variances
1,914 ,204 ,522 8 ,616 ,333 ,639 -1,140 1,806
atribuída ao assumed
algarve enquanto Equal variances
destino turístico ,466 4,379 ,663 ,333 ,715 -1,586 2,252
not assumed
Que pode concluir?
ANOVA
O objetivo é comparar mais do que dois grupos diferentes de casos, relativamente a

uma característica quantitativa.
(as k médias populacionais são iguais)

(pelo menos 2 das k médias populacionais são
diferentes)
Pressupostos:
• Normalidade: as amostras a comparar devem ser extraídas de populações que

seguem a distribuição normal:

|12|
Teste de Kolmogorov-Smirnov: utiliza-se para verificar a propriedade da

normalidade dos dados em amostras de dimensão superior a 50
Teste de Shapiro-Wilk: utiliza-se para verificar a propriedade da normalidade dos
dados em amostras de dimensão igual ou inferior a 50
• Homocedasticidade: as variâncias das populações em estudo são iguais, i.e.,

;
Teste de Levene: utiliza-se para verificar a propriedade da homocedasticidade dos
dados
Suponha que se pretende analisar a existência de diferenças estatisticamente

significativas, entre 3 nacionalidades distintas de turistas, relativamente à importância
média por eles atribuída ao atributo “Gastronomia”.
[Ficheiro: Dados-ANOVA1.sav]
1º Passo: Teste à normalidade:
ANALYZE
EXPLORE
Chame a variável Importância Gastronomia para Dependent List e a variável

Nacionalidade para Factor List. Em PLOTS peça Normality plots with tests.
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
nacionalidade Statistic df Sig. Statistic df Sig.
importância da gastronomia na ingleses ,188 5 ,200* ,944 5 ,696
escolha do destino Algarve alemães ,186 6 ,200* ,960 6 ,818
espanhóis ,251 6 ,200* ,901 6 ,383
a. Lilliefors Significance Correction
*. This is a lower bound of the true significance.
2º Passo: teste à homocedasticidade e ANOVA:
ANALYZE
COMPARE MEANS
ONE-WAY ANOVA

|13|
Chame a variável Importância Gastronomia para Dependent List e a variável

Nacionalidade para Factor. Em OPTIONS peça Homogeneity of variance tests.
Test of Homogeneity of Variances

importância da gastronomia na escolha do destino Algarve
Levene Statistic df1 df2 Sig.
1,827 2 14 ,197
ANOVA
importância da gastronomia na escolha do destino Algarve
Sum of Squares df Mean Square F Sig.
Between Groups ,234 2 ,117 ,252 ,781

Within Groups 6,507 14 ,465
Total 6,741 16
Suponha ainda que pretende analisar a existência de diferenças estatisticamente
significativas, entre as 3 nacionalidades de turistas, mas agora relativamente à
importância média por eles atribuída ao atributo “Vida nocturna”.
1º Passo: Teste à normalidade:
ANALYZE
EXPLORE
Chame a variável Importância Vida nocturna para Dependent List e a variável

Nacionalidade para Factor List. Em PLOTS peça Normality plots with tests.
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
nacionalidade Statistic df Sig. Statistic df Sig.
impvida_noc ingleses ,231 5 ,200* ,881 5 ,314
alemães ,293 6 ,117 ,822 6 ,091
espanhóis ,293 6 ,117 ,822 6 ,091
2º Passo: teste à homocedasticidade e ANOVA:
ANALYZE

|14|
COMPARE MEANS
ONE-WAY ANOVA
Chame a variável Importância Vida Nocturna para Dependent List e a variável

Nacionalidade para Factor. Em OPTIONS peça Homogeneity of variance tests.

impvida_noc
,008 2 14 ,992
ANOVA
impvida_noc
Between Groups 20,298 2 10,149 15,009 ,000
Within Groups 9,467 14 ,676
Total 29,765 16
Uma vez que se rejeita a hipótese nula de igualdade das médias, ter-se-á que averiguar
agora quais as amostras que apresentam diferenças estatisticamente significativas.
Para o efeito, em Post Hoc (menu ANOVA), deverá selecionar os testes de Tukey
(amostras de igual dimensão) e Scheffé (amostras de dimensão diferente):
Multiple Comparisons
Dependent Variable:impvida_noc
Mean Difference 95% Confidence Interval
(I) nacionalidade (J) nacionalidade (I-J) Std. Error Sig. Lower Bound Upper Bound
Tukey HSD ingleses alemães 2,533* ,498 ,000 1,23 3,84
espanhóis ,533 ,498 ,547 -,77 1,84
alemães ingleses -2,533* ,498 ,000 -3,84 -1,23
espanhóis -2,000* ,475 ,002 -3,24 -,76
espanhóis ingleses -,533 ,498 ,547 -1,84 ,77
alemães 2,000* ,475 ,002 ,76 3,24
Scheffe ingleses alemães 2,533* ,498 ,001 1,17 3,89
espanhóis ,533 ,498 ,576 -,83 1,89
alemães ingleses -2,533* ,498 ,001 -3,89 -1,17
espanhóis -2,000* ,475 ,003 -3,30 -,70
espanhóis ingleses -,533 ,498 ,576 -1,89 ,83
alemães 2,000* ,475 ,003 ,70 3,30
*. The mean difference is significant at the 0.05 level.
ANOVA – Options - Descriptive

|15|
N Mean
ingleses 5 4,20
alemães 6 1,67
espanhóis 6 3,67
Total 17 3,12
APLICAÇÃO:
● Uma empresa deseja escolher uma de 5 máquinas para a produção dum

determinado produto. Para o efeito recolheu, ao longo de cinco dias, o número de
unidades produzidas por cada máquina (ficheiro: Dados-ANOVA2.sav). Teste a
hipótese de que não há diferenças no número médio de unidades produzidas pelas
várias máquinas.
Tests of Normality
Maq Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
1 ,250 5 ,200* ,922 5 ,542
2 ,291 5 ,193 ,910 5 ,465
Prod 3 ,174 5 ,200* ,972 5 ,886
4 ,208 5 ,200* ,929 5 ,593
5 ,300 5 ,161 ,864 5 ,245

Prod
2,165 4 20 ,110
ANOVA
Prod
Between Groups 658,160 4 164,540 1,747 ,179
Within Groups 1883,200 20 94,160
Total 2541,360 24

|16|
Teste de Wilcoxon para 1 amostra (Equivalente não paramétrico do teste t para 1

amostra)
No SPSS, o teste de Wilcoxon aparece apenas na sua versão para duas amostras
emparelhadas (2 Related Samples). Assim, para o utilizarmos com uma única amostra,
começamos por criar uma nova variável com todas as observações iguais ao valor em
teste (µ0).
Suponha que quer testar se metade dos turistas atribui uma classificação ao destino
Algarve superior a 4 (relembre que neste teste µ representa a mediana em vez da
média e que a mediana é o valor que está acima de 50% das observações e abaixo das
outras 50%).
H0: μ = 4
H1: μ ≠ 4
[Ficheiro Descritivas-1.sav]
Conforme referido acima, para usar este teste é necessário criar primeiro uma
constante com o valor em teste. Assim, crie no ficheiro uma nova variável “med” com
todos os valores = 4.
ANALYZE
NONPARAMETRIC TESTS
LEGACY DIALOGS
2 RELATED SAMPLES
Selecione as variáveis “classalg” e “med” para a caixa Test pair(s) list e selecione a
opção Wilcoxon (Clique na opção Options se pretender a análise descritiva e os
quartis).

|17|
OUTPUT:
Ranks
N Mean Rank Sum of Ranks
med - classificação geral Negative Ranks 2a 3,00 6,00
atribuída ao algarve enquanto Positive Ranks 4b 3,75 15,00
destino turístico Ties 4c
Total 10
a. med < classificação geral atribuída ao algarve enquanto destino turístico
b. med > classificação geral atribuída ao algarve enquanto destino turístico
c. med = classificação geral atribuída ao algarve enquanto destino turístico
Test Statisticsa
med -
classificação geral
atribuída ao
algarve enquanto
destino turístico
Z -1,000b
Asymp. Sig. (2-tailed) ,317
a. Wilcoxon Signed Ranks Test
b. Based on negative ranks.
No 1º quadro aparecem o nº de sinais + e – (coluna N), a média (Mean Rank) e a

respetiva soma das ordens (Sum of Ranks) de sinais positivos e negativos. O 2º quadro
apresenta a estatística Z e o p-value calculado a partir desta estatística para o teste
bilateral. Neste caso p-value = 0.317, portanto não rejeitamos H0 e concluímos que a

|18|
classificação mediana do Algarve, na população dos turistas de onde foi extraída a

nossa amostra, não é significativamente diferente de 4.
Teste de Wilcoxon para 2 amostras emparelhadas (Equivalente não paramétrico do

teste t para 2 amostras emparelhadas)
Assumindo as seguintes variáveis como qualitativas (ordinais), vamos aplicar este teste
para averiguar se existem diferenças significativas entre a importância que os turistas
atribuem ao fator sol e praia ("Sopra"), quando escolhem o Algarve como destino de
férias (expetativa) e a avaliação que fazem deste mesmo atributo após a sua estadia
(“Clasopra”):
H0: μ1 = μ2 (µ representa a mediana em vez da média)
H1: μ1 ≠ μ2
ANALYZE
NONPARAMETRIC TESTS
LEGACY DIALOGS
2 RELATED SAMPLES
Ranks
N Mean Rank Sum of Ranks
a
classificação atribuída ao sol e Negative Ranks 2 4,00 8,00
praia - importância atribuída ao Positive Ranks 6b 4,67 28,00
sol e praia Ties 2c
Total 10
a. classificação atribuída ao sol e praia < importância atribuída ao sol e praia
b. classificação atribuída ao sol e praia > importância atribuída ao sol e praia
c. classificação atribuída ao sol e praia = importância atribuída ao sol e praia
Test Statisticsa
classificação atribuída ao sol e
praia - importância atribuída ao
sol e praia
Z -1,508b
a. Wilcoxon Signed Ranks Test
b. Based on negative ranks.
Que conclui?
Teste U de Mann-Whitney para 2 amostras independentes (Equivalente não

paramétrico do teste t para 2 amostras independentes)

|19|
Averiguar se existem diferenças entre os turistas ingleses e alemães ao nível da

classificação atribuída ao Algarve enquanto destino turístico:
H0: μ1 = μ2 (µ representa a mediana em vez da média)
H1: μ1 ≠ μ2
ANALYZE
NONPARAMETRIC TESTS
LEGACY DIALOGS
2 INDEPENDENT SAMPLES
Test Variable  classalg

Grouping Variable  nacional
Define Groups
Group1  1
Group 2  2
Selecionar teste Mann-Whitney
OUTPUT:
Ranks
nacionalidade N Mean Rank Sum of Ranks
classificação geral atribuída Ingleses 6 5,83 35,00

ao algarve enquanto destino alemães 4 5,00 20,00
turístico Total 10
Test Statisticsa
classificação geral atribuída ao algarve

enquanto destino turístico
Mann-Whitney U 10,000
Wilcoxon W 20,000
Z -,447
Exact Sig. [2*(1-tailed Sig.)] ,762b
a. Grouping Variable: nacionalidade

b. Not corrected for ties.

|20|
Teste de Kruskal-Wallis (Equivalente não paramétrico da ANOVA)
Averiguar se existem diferenças entre os turistas ingleses, alemães e espanhóis ao

nível da classificação atribuída à gastronomia do Algarve:
(as k medianas populacionais

são iguais)
(pelo menos 2 das k

medianas populacionais
são diferentes)
ANALYZE
NONPARAMETRIC TESTS
LEGACY DIALOGS
k INDEPENDENT TESTS
[Ficheiro: Dados-ANOVA1.sav]
Dependent List  impgastron

Factor  nacionalidade
Define range
Minimum:1
Maximum:3
Selecionar teste Kruskall-Wallis
OUTPUT:
Ranks
nacionalidade N Mean Rank
importância da gastronomia na ingleses 5 8,30
escolha do destino Algarve alemães 6 8,33
espanhóis 6 10,25

|21|
Total 17
Test Statisticsa,b
importância da
gastronomia na
escolha do
destino Algarve
Chi-Square ,583
df 2
Asymp. Sig. ,747
a. Kruskal Wallis Test
b. Grouping Variable: nacionalidade
Teste Qui-Quadrado para independência de variáveis
Retomando o ficheiro Alunos1.sav, considere que chegaram à direção do mestrado

algumas reclamações relativamente ao horário de funcionamento da disciplina de
Análise de Mercado. Intrigada pelo facto dessas queixas serem todas efetuadas por
alunas (sexo feminino), a direção pretende determinar se a satisfação com o horário
depende, ou não, do sexo dos alunos.
H0: As variáveis são independentes;

H1: As variáveis não são independentes.
ANALYZE
CROSSTABS
Rows  sexo
Columns  horario
Statistics  Chi-square
sexo * Satisfação com o horário da disciplina Crosstabulation

Satisfação com o horário da disciplina
Sim Não Total
sexo Masculino Count 7 4 11

|22|
Expected Count 5,1 5,9 11,0

% within sexo 63,6% 36,4% 100,0%
% within Satisfação com o
50,0% 25,0% 36,7%
horário da disciplina
% of Total 23,3% 13,3% 36,7%
Feminino Count 7 12 19
% within sexo 36,8% 63,2% 100,0%
50,0% 75,0% 63,3%
% of Total 23,3% 40,0% 63,3%
Total Count 14 16 30
% within sexo 46,7% 53,3% 100,0%
100,0% 100,0% 100,0%
% of Total 46,7% 53,3% 100,0%
Chi-Square Tests
Asymp. Sig. (2- Exact Sig. (2- Exact Sig. (1-
Value df sided) sided) sided)
Pearson Chi-Square 2,010a 1 ,156
Continuity Correction b
1,077 1 ,299
Likelihood Ratio 2,027 1 ,155
Fisher's Exact Test ,257 ,150
Linear-by-Linear Association 1,943 1 ,163
N of Valid Cases 30
a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 5,13.
b. Computed only for a 2x2 table
O p-valor a considerar é 0.156, o que nos leva a concluir que a satisfação com o horário
não depende do sexo dos alunos.
Regressão Linear Múltipla

|23|
A empresa XXX pretende estudar a relação linear existente entre o volume de vendas
do produto XPTO (Y), o preço por ela praticado (X1) e o preço médio praticado pelos
concorrentes (X2). No ficheiro Dados-RLM1.sav encontra-se informação sobre o
volume de vendas do produto XPTO, o preço praticado pela empresa e o preço médio
praticado pela concorrência nos últimos 10 meses.
ANALIZE
REGRESSION
LINEAR
Selecionar a variável volume de vendas como variável dependente (Y) e as variáveis

preço da empresa (X1) e preço da concorrência (X2) como independentes.
Clicar em STATISTICS e pedir Part and Parcial Correlations.
O Coeficiente de Correlação Múltipla, Ry.12 = 0.96, indica um elevado grau de associação

entre as duas variáveis independentes tomadas conjuntamente e a variável
independente.
O Coeficiente de Determinação Múltipla, R 2y.12 = 0.92, indica que 92% da variação no
volume de vendas é explicada pelo preço praticado pela empresa e pelo preço
praticado pela concorrência.
O teste de significância global da regressão refere-se ao ensaio de hipóteses de que

nenhuma das variáveis independentes ajuda a explicar a variação da variável
dependente:
H0: β1=β2=…=βk=0
H1: Pelo menos um dos βk é ≠0

|24|
O teste a aplicar é o teste F (k-1, n-k), que apresenta uma significância de 0.000 (<0.05).
Logo não podemos aceitar H0, i.e., pelo menos um dos parâmetros do modelo é
estatisticamente significante.
Coefficientsa
Model Unstandardized Standardized t Sig. Correlations
Coefficients Coefficients
B Std. Beta Zero- Partial Part
Error order
(Constant) 544,909 94,623 5,759 ,001
Preço praticado -22,442 3,719 -,665 -6,034 ,001 -,818 -,916 -,637
pela empresa (€)
1
Preço médio 6,597 1,383 ,526 4,769 ,002 ,718 ,874 ,504
praticado pela
concorrência (€)
a. Dependent Variable: Volume de vendas (milhares de euros)
O último quadro apresentado no output permite-nos definir a equação estimada pelo

MMQ (Método dos Mínimos Quadrados):
que nos indica que o volume de vendas é inversamente relacionado com o preço
praticado pela empresa (X1) mas diretamente relacionado com o preço praticado pela
concorrência (X2).
Fornece-nos também os valores dos coeficientes de correlação parciais, ry1.2 = -0.92 e

ry2.1 = 0.87. Como o primeiro excede (em valor absoluto) o segundo, somos levados a
concluir que X1 (preço da empresa), contribui mais do que X2 (preço da concorrência),
para a explicação do modelo.
Por último, é ainda este quadro que nos permite verificar se existe uma relação
significativa, na população, entre a variável dependente e cada uma das variáveis
independentes (teste de significância):
H0: β1 = 0 vs H1: β1 ≠ 0
H0: β2 = 0 vs H1: β2 ≠ 0
O teste a aplicar é o teste t(n-k) que apresenta os valores de significância de 0.001 e

0.002, pelo que se pode concluir que os parâmetros são estatisticamente significantes,
i.e., não aceitamos H0 em qualquer dos casos.
Vamos agora proceder ao diagnóstico do modelo estimado, o que consiste em verificar

as hipóteses clássicas do modelo.

|25|
● Linearidade
Esta hipótese estabelece que a relação entre a variável dependente e as variáveis
independentes é linear. A análise é feita através da observação gráfica com recurso a
diagramas de dispersão.
GRAPHS
LEGACY DIALOGS
SCATTER/DOT
SIMPLE
Editar gráfico (double click) e em ELEMENTS pedir FIT LINE AT TOTAL:
Conforme se observa em qualquer dos gráficos existe uma razoável associação linear
entre cada uma das variáveis independentes e a variável dependente, que é de 0,82 (
) para o “Preço médio praticado pela empresa” e de 0,72 ( ) para o
Preço médio praticado pelos concorrentes”, sendo que no 1º caso a associação é
negativa e no 2º é positiva, o que decorre da inclinação das retas e está em
conformidade com os sinais dos coeficientes de regressão.

|26|
Tolerância<0.1
 Multicolinearidade
VIF>10
Fazendo correr de novo a regressão e pedindo Collinearity diagnostics:

Coefficientsa
Collinearity Statistics
Model Tolerance VIF
1 Preço praticado pela empresa ,916 1,091
(euro)
Preço médio praticado pela ,916 1,091
concorrência (euro)
a. Dependent Variable: Volume de vendas (milhares de euros)
Verifica-se que a tolerância para qualquer das variáveis é de 0,916, (>0.1) e assim
indicia a não multicolinearidade.
O VIF para qualquer das variáveis é 1,091, bem longe do valor limite, pelo que a
conclusão aponta para a inexistência de multicolinearidade.
 Homocedasticidade
Um processo para avaliar a verificação desta hipótese clássica do modelo, consiste em

observar as relações entre os resíduos estandardizados (ZRE) e os valores estimados da
variável dependente (PRE). Os comandos da MRLM são conforme se indica:

|27|
São criadas na base de dados as variáveis Pre_1 (predict values unstandardized) e

Zre_1 (residuals standardized), que vão ser utilizadas para criar o scatterplot que nos
vai permitir analisar a existência de homocedasticidade:
GRAPHS
LEGACY DIALOGS
SCATTER/DOT
SIMPLE
Y Axis: ZRE_1
X Axis: PRE_1
Edite o gráfico (double-click) e em OPTIONS peça Y Axis Reference Line na posição 0.
O gráfico mostra que os resíduos mantêm uma amplitude aproximadamente constante

em relação ao eixo horizontal zero, pelo que não se rejeita a hipótese de
homocedasticidade. (Os valores correspondentes às observações 5 e 6 podem indiciar
que estes possam ser outliers)
 Autocorrelação
Teste Durbin-Watson:
 para valores próximos de 2, não existe autocorrelação;
 para valores próximos de 0, existe autocorrelação positiva;
 para valores próximos de 4, existe autocorrelação negativa.
LINEAR REGRESSION
STATISTCS
RESIDUALS

|28|
DURBIN-WATSON
Model Summaryb
Adjusted R Std. Error of the
Model R R Square Square Estimate Durbin-Watson
1 ,960a ,922 ,900 8,35685 2,618
a. Predictors: (Constant), Preço médio praticado pela concorrência (euro), Preço
praticado pela empresa (euro)
b. Dependent Variable: Volume de vendas (milhares de euros)
No quadro de “Model Summary”, na última coluna apresenta-se o valor do teste de

DB: 2,618. Como este valor pode considerar-se próximo de 2, conclui-se não existir
autocorrelação.
 Normalidade
A normalidade pode ser analisada através de gráficos do tipo Q-Q, ou através do teste
K-S (Kolmogorov-Smirnov) com a correção de Liliefors ou de Shapiro-Wilk,
respectivamente para amostras grandes e de pequena dimensão (n<30). Os comandos
são:
ANALYZE
EXPLORE
Chamar a variável ZRE_1 para a Dependente List e em PLOTS pedir Normality plots with
Tests:
Em ambos os testes, (é mais seguro trabalhar com o Shapiro-Wilk, face à dimensão

reduzida da amostra) se verifica que sig>α, e para os valores mais utilizados para α
(erro tipo I), 0,01, 0,05 e 0,1, a decisão é não rejeitar a hipótese nula, ou seja, os
resíduos seguem uma distribuição normal.

|29|
Os gráficos mostram que as observações se dispõem à volta das retas respetivamente

oblíqua e horizontal, o que indicia a não violação da normalidade.
Permitem ainda analisar as observações que se afastam da normalidade: mais uma vez
se observa que as observações 5 e 6 poderão ser outliers.

|30|

Caderno Apoio SPSS

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Caderno Apoio SPSS

Enviado por

Direitos autorais:

Formatos disponíveis

Marketing

CADERNO DE APOIO A AULAS PRÁTICAS

Núcleo de Métodos Quantitativos

Margarida Arraes Viegas

Fonte: Edições Silabo

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Idade dos inquiridos

NOTA: Para saber se uma variável é simétrica dividimos o coeficiente assimetria

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Esta opção só se aplica a variáveis quantitativas:

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Statistic Std. Error

95% Confidence Lower Bound 20,05

idade Stem-and-Leaf Plot

Frequency Stem & Leaf

Note que no box-and-whisker os "bigodes" vão até ao menor e maior valores,

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Esta opção (EXPLORE), permite ainda agrupar uma variável quantitativa de

Esta opção gera tabelas de contingência para dados qualitativos. A tabela

sexo dos inquiridos * nacionalidade Crosstabulation

Value Approx. Sig.

Nominal by Nominal Phi ,167 ,598

Cramer's V ,167 ,598

Contingency Coefficient ,164 ,598

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Para Variáveis Nominais: Coeficiente Phi, Coeficiente de Contingência e V de Crámer

O output apresenta, para além da tabela de contingência, um quadro com os valores

Value Approx. Sig.

Para Variáveis Ordinais: Coeficiente de Spearmen e Kendall's tau

Marketing - Caderno de Apoio a Aulas Práticas SPSS

classificação atribuída ao sol e Correlation Coefficient ,744* 1,000

Para Variáveis Quantitativas: Coeficiente de Pearson

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Intervalo de Confiança para média duma população

Considere os dados dos alunos que frequentam a disciplina de Análise de Mercado do

Selecione a variável idade para Dependent List e em Statistics defina o nível de

Marketing - Caderno de Apoio a Aulas Práticas SPSS

Teste t para uma amostra:

Suponha que o docente responsável pela disciplina de Análise de Mercado pretendia

N Mean Std. Deviation Std. Error Mean

trab_1 30 12,709 3,2725 ,5975

95% Confidence Interval of the

t df Sig. (2-tailed) Mean Difference Lower Upper

trab_1 -2,161 29 ,039 -1,2913 -2,513 -,069

Marketing - Caderno de Apoio a Aulas Práticas SPSS

N Mean Std. Deviation Std. Error Mean

t df Sig. (2-tailed) Mean Difference Lower Upper

Teste t para duas amostras:

Este teste pode ser aplicado em duas situações distintas:

Marketing - Caderno de Apoio a Aulas Práticas SPSS

A) Suponhamos que pretendemos averiguar se existem diferenças significativas entre

Selecione simultaneamente as variáveis referidas. O output apresenta um primeiro

Paired Samples Test

Como já sabemos, a H0 em estudo refere-se à igualdade das médias. Para concluir

B) Suponhamos agora que pretendemos averiguar se existem diferenças entre os

Marketing - Caderno de Apoio a Aulas Práticas SPSS

A variável teste (Test Variable) é pois a Classificação do Algarve e a variável de

O output inicia-se com algumas estatísticas para os dois grupos considerados

Independent Samples Test

Que pode concluir?

O objetivo é comparar mais do que dois grupos diferentes de casos, relativamente a

(as k médias populacionais são iguais)

• Normalidade: as amostras a comparar devem ser extraídas de populações que

Marketing - Caderno de Apoio a Aulas Práticas SPSS