Manual MA Todos Quantitativos Tomo 1 PDF

COOPERAÇÃO CE - PALOP
Programa PIR PALOP II
Projecto
CONSOLIDAÇÃO DAS CAPACIDADES DA ADMINISTRAÇÃO
PÚBLICA
N.º IDENTIFICAÇÃO : REG/7901/013

N.° CONTABILÍSTICO : 8 ACP MTR 5 * 8 ACP TPS 126
ACORDO DE FINANCIAMENTO : 6520/REG
Manual de Técnicas e Métodos

Quantitativos
Tomo - I
CO-FINANCIAMENTO
COMISSÃO EUROPEIA GOVERNO PORTUGUÊS

Fundo Europeu de Desenvolvimento Instituto Português de Apoio ao
4,8 Milhões de Euros Desenvolvimento
1,2 Milhões de Euros
INA – Instituto Nacional de Administração

COOPERAÇÃO CE – PALOP
Programa PIR PALOP II / Projecto Consolidação das Capacidades da Administração Pública
Manual de Técnicas e Métodos Quantitativos (Tomo 1)
Ficha Técnica
Autor:
Rui Brites
Resumo biográfico:
Rui Brites
Mestre em Sociologia, Área de Comunicação, doutorando em Sociologia (ISCTE).
Professor Auxiliar Convidado do Departamento de Métodos Quantitativos do ISCTE.
Investigador do CIES/ISCTE-Centro de Investigação e Estudos de Sociologia e membro do GIESTA/ISCTE-Grupo
de Investigação Estatística e Análise de Dados.
Foi coordenador do Centro de Informação sobre a Droga e a Toxicodependência do IPDT-Instituto Português da
Droga e Toxicodependência (Agosto 2000-Julho 2002).
Participa e tem participado em diversos projectos de investigação e investigação-acção, como coordenador das áreas
metodológicas e de análise de dados.
Título do manual:
Manual_Métodos Quantitativos_Tomo_1.doc
Mês e Ano de elaboração:

Junho de 2007
Coordenação do projecto:
Cabo Verde – Unidade de Gestão do Projecto
Coordenadora – Josefa Lopes
Assistência Técnica e Pedagógica

Portugal – Instituto Nacional de Administração – INA
Gestor de Projecto – Manuel Clarote Lapão
ISBN:
(número internacional integrante do sistema ISBN (International Standard Book Number), a solicitar pela entidade
responsável pela edição do documento, se possível).
Lisboa, Junho de 2007
INA – Instituto Nacional de Administração 2

Índice
Pág.
Estruturação dos capítulos 5
Introdução 6
Capítulo 1 – Amostragem 7
Objectivos 7
Palavras-chave 7
Conteúdo temático
1.1. Noções de amostragem 8
1.2. Métodos de amostragem 10
1.3. Selecção das unidades amostrais 11
1.4. Margens de erro e intervalos de confiança 12
Avaliação 15
Bibliografia 15
Capítulo 2 – Introdução ao SPSS 16
Objectivos 16
Palavras-chave 16
Conteúdo temático
2.1. Editor de dados do SPSS 17
2.2. Output do SPSS 18
2.3. Menus SPSS 19
2.4. Criação de bases de dados 22
2.5. Tratamento Preliminar de dados 22
2.5.1. Transformação algébrica de variáveis 23
2.5.2. Transformação lógica de variáveis 28
2.5.3. Inversão da escala de uma variável 29
2.5.4. Variáveis de contagem de ocorrências 30
2.6. Selecção de casos 31
Avaliação 35
Referências 36

Pág.
Capítulo 3 – Estatística aplicada com SPSS 37
Objectivos 37
Palavras-chave 37
Conteúdo temático
3.1. Análise de dados univariada 38
3.1.1. Frequências 38
3.1.2. Estatísticas descritivas e gráficos de perfil 41
3.1.3. Testes de aderência (para 1 amostra) 44
3.1.3.1. χ (Qui-quadrado)
2
44
3.1.3.2. Kolmogorov-Smirnov 45
3.1.3.3 Teste t de Student 46
3.2. Análise de dados bivariada 47
2
3.2.1. Cruzamentos e teste de independência χ (Qui-quadrado) 47
3.2.2. Testes não paramétricos – procedimento Non Parametric Tests 50
3.2.2.1. Duas amostras independentes (Mann-Whitney e Kolmogorov-Smirnov) 50
3.2.2.2. K amostras independentes (Kruskal-Wallis) 52
3.2.3. Testes não paramétricos – procedimento Compare Means 54
3.2.3.1. Duas amostras emparelhadas (t de Student amostras emparelhadas) 54
3.2.3.2. Duas amostras independentes (t de Student de independência) 55
3.2.3.3. k amostras independentes (Análise de Variância Simples Paramétrica -
ANOVA) 56
3.2.4. Correlação linear simples 59
3.3. Modelos de previsão 61
3.3.1. Análise de Regressão Simples 61
3.3.2. Análise de Regressão Múltipla 63
3.4. Análise de dados multivariada 66
3.4.1. Análise das Componentes Principais 66
3.4.2. Análise de Clusters 71
3.4.2.1. Análise hierárquica de Clusters 72
3.4.2.2. Análise não hierárquica de Clusters – método de optimização (K-Means) 76
3.4.3. Articulação entre a Análise das Componentes Principais r a Análise de
Clusters 76
Avaliação 79
Bibliografia 79
Anexo 1: Testes de inferência estatística mais utilizados em Análise bivariada 80
Anexo 2: European Social Survey (round 1 - 2002) - Questionário adaptado 83

Estruturação dos capítulos
Em cada capítulo ou conteúdo temático, o participante visualizará uma estrutura que apresentará
as seguintes subdivisões, a saber:
Objectivo(s) específico(s), no qual cada participante conhecerá a proposta

de aprendizagem a ser alcançada no final dessa mesma (sub)temática e que
servirá de referência para a auto-avaliação;
Objectivos
Palavras-chave, que pela sua relevância para a temática e como realce da
atenção do participante para determinada designação ou conceito, que terá a
Palavras
sua definição e explicitação, no final do capítulo, no espaço reservado em
Glossário.
Conteúdo programático, onde se procurará desenvolver, de modo claro,

objectivo e com rigor técnico, a (sub)temática em apreço, referenciando-se
os elementos de substância, julgados mais significativos e de interesse para
a aprendizagem do(a) participante(a).
Conteúdo
Avaliação. Neste espaço será indicada a forma de avaliação do capítulo e

incluída a respectiva ficha de exercício.
Avaliação
Referências. Nesta subdivisão poder-se-á encontrar uma lista de elementos
bibliográficos referentes: às citações efectuadas ao longo do texto; às obras

Referências
consultadas pelo(s) autor(es), i. é, livros, artigos, monografias, trabalhos
académicos, endereços electrónicos, etc., que poderão ajudar no trabalho
de pesquisa ou de aprofundamento de saberes de cada participante(a).

Introdução
O Manual de Técnicas e Métodos Quantitativos (Tomo 1) tem como objectivo principal orientar
os formandos na utilização do SPSS, constituindo-se simultaneamente como um guião da
matéria leccionada e de uma ficha técnica para realização dos exercícios propostos no âmbito do
Programa PIR PALOP II e do Projecto “Consolidação das Capacidades da Administração
Pública”.
Pretende-se, deste modo, disponibilizar aos formandos um guião que lhes permita acompanhar a
sequência dos pontos do programa e as respectivas aulas. Nesse sentido, este manual não
dispensa a necessidade de se tirar apontamentos nas aulas, nem a leitura e consulta de outra
bibliografia, que permitirá o aprofundamento dos temas, na medida em que aqui se situam
apenas os principais tópicos e as balizas das matérias abordadas.
A sua utilidade para os formandos, para além da já referida, assenta ainda no facto de poder
servir de apoio à elaboração de novo guião para futuras acções de formação que venham a
coordenar, já como formadores.
Procurou-se por isso apresentar o conteúdo dos vários pontos de uma forma clara, simples e
sintética, de maneira a que o essencial seja captado neste manual, podendo ser aprofundado a
partir das referências indicadas.
De acordo com o programa, este manual divide-se em três capítulos, que estão obviamente
relacionados intimamente:
- O primeiro pretende fornecer aos formandos elementos que lhes permitam construir uma
amostra representativa e proceder à selecção aleatória das unidades amostrais.
- O segundo tem como objectivo familiarizar os formandos com o SPSS, permitindo-lhes

criar, importar e manipular bases de dados, bem como proceder ao tratamento preliminar
dos dados, recodificar variáveis e construir novas variáveis a partir das variáveis
originais.
- O terceiro tem como objectivo dotar os formandos de competências técnicas e estatísticas

que lhes permitam proceder à análise de dados univariada, bivariada e multrivariada,
com SPSS.

Capítulo
1
Capítulo 1 – Amostragem

Objectivos
No final deste capítulo os formandos deverão ser capazes de:
1. seleccionar os tipos de amostra mais adequados a cada contexto;
2. calcular a dimensão da amostra e a margem de erro;
3. seleccionar as unidades amostrais.

Palavras
-
-
-
Amostra
Erro amostral
Unidades amostrais

1.1. Noções de amostragem
Em Estatística1, amostra é o conjunto de elementos extraídos de um conjunto

Conteúdo maior, chamado População. É um conjunto constituído de indivíduos (famílias
ou outras organizações), acontecimentos ou outros objectos de estudo que o
investigador pretende descrever ou para os quais pretende generalizar as suas conclusões ou
resultados.
Principais razões para se trabalhar com uma amostra:
- A população é infinita, ou considerada como tal, não podendo portanto ser analisada
na íntegra;
- Custo excessivo do processo de recolha e tratamento dos dados, como resultado da
grande dimensão da população ou da complexidade do processo de caracterização de
todos os elementos da população;
- Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo à
obtenção de informação desactualizada;
- As populações são dinâmicas, de onde resulta que os elementos ou objectos da
população estão em constante renovação, de onde resulta a impossibilidade de
analisar todos os elementos desta população;
Se a constituição da amostra obedecer a determinadas condições, a análise das características da

amostra pode servir para se fazerem inferências sobre a população.
Nota: A dimensão da amostra é significativamente inferior à dimensão da população, de forma a

justificar a constituição da amostra. A amostragem é, por sua vez, um conjunto de
procedimentos através dos quais se selecciona uma amostra de uma população. Pode-se
dividir as técnicas de amostragem em vário tipos:
- Amostragem probabilística - procedimento em que todos os elementos da população

têm uma probabilidade conhecida e superior a zero de integrar a amostra;
- Amostragem não probabilística:
- Amostragem intencional - amostragem não probabilística subordinada a objectivos
específicos do investigador;
- Amostragem não intencional - amostragem não probabilística regida por critérios de
conveniência e/ou de disponibilidade dos inquiridos.
1
Amostra (estatística) . In Infopédia [Em linha]. Porto: Porto Editora, 2003-2008. [Consult. 2008-01-15]. Disponível na www:
<URL: http://www.infopedia.pt/$amostra-(estatistica)>.

Questões pré
prévias ao processo de amostragem
de natureza quantitativa
1. Definição clara dos O que se pretende saber/conhecer

objectivos do estudo melhor/compreender
2. Quem deverá ser População alvo* e população a

entrevistado inquirir
3. Quantos deverão ser
Dimensão da amostra
entrevistados
4. Como serão Método de selecção da amostra

seleccionados (escolha das unidades amostrais)
*Designa-se por população alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo
de informação
7
Representaç
Representação de uma Amostra*
Universo Hipotético
(praticamente infinito)
Universo ou População, N
(finito)
Amostra, n
(unidades de observação)
Unidades que poderiam ser

observadas
Conjunto de unidades existentes às

quais se aplica a teoria
8
* in: Bravo, Sierra: Técnicas de Investigación Social, Madrid, Editorial Paraninfo, 1989

Desenvolvimento de um plano amostral*
População alvo
População a inquirir
Processo amostral Método de recolha

Dimensão da amostra de dados
Amostra final
9
* in: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999
1.2. Métodos amostrais
Métodos de selecç
selecção da amostra*
•Amostragem aleatória simples
•Amostragem sistemática
Métodos probabilísticos •Amostragem estratificada
(amostragem casual)
•Amostragem por clusters
•Amostragem multi-etapas
•Amostragem multifásica
•Amostragem por conveniência

Métodos não •Amostragem intencional
probabilísticos •Amostragem snowball
(amostragem dirigida) •Amostragem sequencial
•Amostragem por quotas
10
* in: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999

1.3. Selecção das unidades amostrais
Métodos de selecç
selecção da amostra (cont)
cont)*
Métodos probabilísticos - amostragem aleatória

Cada elemento da população tem a mesma probabilidade de ser
Aleatória simples
seleccionado
Casual Cálculo do rácio K=N/n; selecção aleatória do primeiro elemento

sistemática da população e sequencial dos restantes
Separação dos elementos da população em estratos e selecção

Estratificada
aleatória dos elementos dentro de cada estrato
A população encontra-se dividida em clusters que são

Clusters seleccionados aleatoriamente, constituindo as unidades amostrais
Idêntico ao anterior mas em que as unidades amostrais são
Multi-etapas
seleccionadas aleatoriamente dentro de cada cluster
Numa 1ª fase recolhem-se dados sobre determinadas
características dos respondentes (comportamentos e frequência de
Multi-fásica consumos, variáveis demográficas, etc.) e da sua disponibilidade
para responder novamente a um inquérito. É então retirada desta
fase uma sub-amostra que será inquirida na 2ª fase.
* in: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999 11
Amostra estratificada*
Área
Norte Centro Sul Outros
(Coimbra, (Lisboa, Total
(Braga e Aveiro e Setúbal e (Restantes
Porto) Leiria) Santarém) distritos)
Sector
Universo
Produto A 180 160 310 200 850

Produto B 150 70 230 50 500
Produto C 1260 550 700 190 2700
Produto D 1070 610 600 170 2450
Total 2 660 1390 1840 610 6500
Amostra (10% da população)
Área
Norte Centro Sul Outros
(Coimbra, (Lisboa, Total
(Braga e Aveiro e Setúbal e (Restantes
Porto) Leiria) Santarém) distritos)
Sector
Produto A 18 16 31 20 85
Produto B 15 7 23 5 50
Produto C 126 55 70 19 270
Produto D 107 61 60 17 245
Total 266 139 184 61 650
* Adaptado de: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999 12

Métodos de selecç
selecção da amostra (cont)
cont)*
Métodos não probabilísticos - amostragem dirigida
Amostragem por A amostra é seleccionada em função da disponibilidade e
conveniência acessibilidade dos elementos que constituem a população alvo
A escolha dos elementos a incluir na amostra baseia-se na opinião
Amostragem de uma ou mais pessoas que conhecem muito bem as
intencional características específicas da população em estudo, que se
pretende analisar
Numa 1ª fase os inquiridos são escolhidos aleatoriamente, sendo,

Amostragem
numa segunda fase, os inquiridos adicionais escolhidos com base
snowball na informação dos primeiros
Amostragem Semelhante ao método multi-fásico. A realização da fase seguinte

sequencial só é decidida depois de analisados os resultados da fase anterior.
Equivalente à amostragem aleatória estratificada. As proporções

dos vários sub-grupos reflectem a sua distribuição dentro da
Amostragem por
população. Cada entrevistador dispõe das características que os
quotas entrevistados deverão satisfazer, terminando as entrevistas
quando as quotas estiverem preenchidas.
* in: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999 13
1.4. Erro amostral
Determinaç
Determinação da margem de erro em funç
função do nº
nº de elementos*
in: Bravo, Sierra: Técnicas de Investigación Social, Madrid, Editorial Paraninfo, 1989 14

Determinaç
Determinação nº
nº de elementos em funç
função da margem de erro *

Determinação nº de elementos em função da margem de erro e da

dimensão da população *


A avaliação deste capítulo consiste num exercício escrito, de resposta às
seguintes questões
Avaliação
Exercício de avaliação:
1) “Depois de se identificar os dados que deverão ser recolhidos e o instrumento (questionário

estruturado, por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um
processo de amostragem adequado ao tipo de dados e ao instrumento de análise”2
Diga, sucintamente em que consistem os seguintes métodos de mostragem:

- Amostra aleatória simples;
- Amostra Estratificada;
- Amostra por quotas.
2) “O problema da Inferência Indutiva é, do ponto de vista da Estatística, encarado da seguinte

forma: a finalidade da investigação é descobrir algo sobre determinada população ou universo”.3
Comente a frase e diga quais os procedimentos para seleccionar as unidades amostrais (sujeitos)
numa amostra estratificada.
- Bravo, R. S. (1988), Técnicas de investigación social, 5ª ed.

Referências
-
-
corrigida y ampliada, Madrid, Paraninfo (Secção 1).
Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatística
Aplicada – volume 2, Lisboa, Sílabo, 3ª edição revista.
Vicente, P.; E. Reis; F. Ferrão (2002), Sondagens-A amostragem
como factor decisivo de qualidade, Lisboa, Edições Sílabo.
2
Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatística Aplicada – volume 2, Lisboa, Sílabo, 3ª edição revista.
3
Idem.

Programa PIR PALOP II / Projecto Consolidação das Capacidades da Administração Pública Capítulo
2
Capítulo 2 – Introdução ao SPSS

Objectivos
O objectivo geral deste capítulo é o de familiarizar os formandos com o SPSS,
nomeadamente no que se refere:
-
-
Janelas e menus;
Criação e manipulação de bases de dados;
- Tratamento preliminar dos dados.

Palavras
-
-
Variável
Nível de medida


2.1. Editor de dados do SPSS
O pakage estatístico SPSS para Windows é um poderoso sistema de análises

Conteúdo estatísticas e manuseamento de dados, em que a utilização mais frequente, para a
maioria das análises a efectuar, se resume à selecção das respectivas opções em
menus e caixas de diálogo
O editor de dados do SPSS (Data Editor) é composto por duas janelas sobrepostas: Data View e
Variable View. A função da primeira – Data View – é a de introduzir os dados e da segunda -
Variable View – é criar a estrutura da base de dados.
Muda-se de uma para outra clicando no respectivo separador.
O Data Editor do SPSS é um programa do tipo de folha de cálculo que permite facilmente criar ou
editar ficheiros de dados. Abre automaticamente quando se entra no SPSS.
O seu aspecto é o seguinte:
Janela Data View:

Janela Variable View:
2.2. Output do SPSS (Output Viewer)
É nesta janela que são apresentados todos os resultados estatísticos. Abre automaticamente sempre
que um determinado procedimento gera resultados. É possível editar as tabelas e gráficos
produzidos, clicando duas vezes com a tecla esquerda do rato e modificar a sua aparência.
Janela Output Viewer:

2.3. Menus do SPSS
Os menus das janelas principais – Data Editor e Outpur Viewer - são idênticos e têm o seguinte
aspecto visual:
Principais funcionalidades dos menus
Criar, abrir, ler, exportar, gravar e imprimir

File
ficheiros.
Configuração/parametrização do SPSS
Edit
(Options), inserir novas variáveis e novos casos.

Activar/desactivar barras de comandos, fontes,

View grelha, barra de status e mostrar etiquetas
(labels) definidas.
Alteração global dos dados;

Ordenar a base;
Juntar ficheiros (Merge Files);
Data Dividir a análise por grupos (Split File);
Criar subconjuntos de casos para análise (Select
Cases);
Activar ponderadores (Weight Cases).
Criar novas variáveis com base nas variáveis

Transform originais;
Recodificar variáveis.

Analyse Procedimentos de análise estatística.
Graphs Criar gráficos.
Utilities Informação sobre as variáveis.
Comuta entre janelas;

Window
Minimizar janelas
Ajuda em linha;
Help
Tutorial.

2.4. Criação de bases de dados
As bases de dados são criadas na janela Variable View, devendo a estrutura das variáveis obedecer
às seguintes regras:
- Máximo 64 caracteres (versões anteriores à 13, apenas 8);

- Deve começar por uma letra; os restantes caracteres podem ser letras
(maiúsculas ou minúsculas são iguais), algarismos, ou os símbolos @, #, _, $.
Name - Não se podem usar espaços em branco, nem os seguintes caracteres: !, ?, ‘, “, *,
+, -, %, vírgula, ponto e vírgula, \, /, >, <
- Evitar terminar o nome com o caracter _ (underscore);
- Evitar usar caracteres acentuados ou com til.
Por defeito é numérico, pode alterar-se para outro tipo, por exemplo carácter
Type (string), data, etc
Nº de caracteres do campo. Por defeito, 8. Pode ser aumentado – no caso das
Width variáveis string, até 255.
Decimals Define o número da casas decimais.
Label Etiquetas dos nomes (name) das variáveis. Admite o máximo de 128 caraecteres.
Values Etiquetas dos valores (códigos) das variáveis nominais ou ordinais.
Define os códigos das respostas não válidas (não sabe, não responde, não tem que
Missing
responder) que serão excluídas da análise.
Columns Largura da coluna de introdução de dados. Por defeito, 8.
Align Permite alinhar os dados à esquerda, centro ou direita.
Measures Define o nível de medida das variáveis: nominal, ordinal ou scale.
A introdução dos dados processa-se na janela Variable View após ter sido criada a estrutura da
base.
2.5. Tratamento Preliminar de dados
Nota: A base de dados que vamos utilizar é um extracto da base de dados do European Social
Survey (round 1)4 com os resultados da aplicação do questionário em Portugal (ficheiro
ESS-Portugal 2002 (base1).sav).
4
A base de dados original está disponível em http://www.europeansocialsurvey.org/.

2.5.1. Transformação algébrica de variáveis
Exemplo 1: Recodificação de variáveis
Pretende-se criar duas novas variáveis: a variável idade a partir da variável f3 (data de
nascimento) e recodificá-la, criando uma nova variável - idade2 - com 4 escalões: até 30 anos; 31
– 50 anos; 50 – 65 anos e > 65 anos.
a) Criação da variável idade:

A variável idade acrescentou-se à base de dados. Vamos agora proceder à sua recodificação,
criando uma nova variável – idade2 – com 4 escalões5:
A variável idade2 acrescentar-se-á à base e deverá ser completada com a alteração do nível de
medida (scale para ordinal) e a definição dos respectivos value labels.
O resultado será o seguinte:
Idade
Cumulative
Frequency Percent Valid Percent Percent
Valid Até 30 anos 341 22.6 22.6 22.6
31 - 50 anos 505 33.4 33.4 56.0
51 - 65 anos 315 20.8 20.8 76.8
> 65 anos 350 23.2 23.2 100.0
Total 1511 100.0 100.0
5
Nota: na recodificação de variáveis é recomendável manter as variáveis originais e criar novas variáveis recodificadas,
escolhendo para o efeito a opção Into diferent variable.

b) Recodificação da variável “escolaridade”:
Pretende-se recodificar a variável “escolaridade” (f7) criando uma nova variável (escol) com 3
escalões: até 9 anos; 10 – 12 anos e > 12 anos.
A variável escol acrescentar-se-á à base e deverá ser completada com a alteração do nível de
Escolaridade
Cumulative
Valid Até 9 anos 1046 69.2 69.2 69.2
10 - 12 anos 251 16.6 16.6 85.8
> 12 anos 212 14.0 14.0 99.9
NR 2 .1 .1 100.0
Total 1511 100.0 100.0

c) Recodificação da variável “autoposicionamento político”:
Pretende-se recodificar a variável “autoposicionamento político” (b28) criando uma nova variável
(b28r) com 3 escalões: esquerda; centro e direita.
A variável b28r acrescentar-se-á à base e deverá ser completada com a alteração do nível de
Autoposicionamento político
Cumulative
Valid Esquerda 296 19.6 24.5 24.5
Centro 620 41.0 51.2 75.7
Direita 294 19.4 24.3 100.0
Total 1211 79.9 100.0
Missing System 304 20.1
Total 1515 100.0

Exemplo 2: criação de Índices sintéticos
Pretende-se criar dois índices sintéticos: Confiança social (variáveis a8, a9 e a10) e Confiança
institucional (variáveis b7, b8, b9 e b10).
As 2 variáveis acrescentaram-se à base6:
Os resultados são os seguintes:
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation

Índice sintético de Confiança social 1480 .0 10.0 4.316 1.7469
Índice sintético de Confiança institucional 1338 .0 9.3 4.097 1.7603
Valid N (listwise) 1319
6
Nota: tratando-se de variáveis rácio, deverão ter casas decimais (1 ou 2).

2.5.2. Transformação lógica de variáveis
Exemplo: pretende-se criar uma variável - sexid - através da transformação lógica das variáveis f2
e idade2, com 4 categorias: “homens até 30 anos”, “homens com mais de 30 anos”,
“mulheres até 30 anos” e “mulheres com mais de 30 anos”.
Nota: repetir o comando para as restantes categorias, cujas expressões numéricas são as seguintes:
Categoria 2: f2 = 1 & idade2 > 2
Categoria 3: f2 = 2 & idade2 = 3
Categoria 4: f2 = 2 & idade2 > 4
A variável sexid acrescentar-se-á à base e deverá ser completada com a alteração do nível de
medida (scale para ordinal) e a definição dos respectivos label e value labels.
O resultado é o seguinte:
Sexo e Idade
Cumulative
Valid Homens até 30 anos 158 10.5 10.5 10.5
Homens com mais de 30 anos 472 31.2 31.2 41.7
Mulheres até 30 anos 183 12.1 12.1 53.8
Mulheres com mais de 30 anos 698 46.2 46.2 100.0
Total 1511 100.0 100.0

2.5.3. Inversão da escala de uma variável
Exemplo: pretende-se criar uma nova variável (ib1) com a inversão da escala da variável interesse
pela política (b1) de modo a que 1 corresponda a “nenhum interesse” e 4 a “muito
interesse”:
b1
Qual o seu interesse pela política
Cumulative
Valid Muito interesse 117 7.7 7.8 7.8
Algum interesse 456 30.2 30.3 38.1
Pouco interesse 441 29.2 29.3 67.5
Nenhum interesse 489 32.4 32.5 100.0
Total 1503 99.5 100.0
Missing Recusa 6 .4
Não sabe 2 .1
Total 8 .5
Total 1511 100.0
ib1
Cumulative
Valid Nenhum interesse 489 32.4 32.5 32.5
Pouco interesse 441 29.2 29.3 61.9
Algum interesse 456 30.2 30.3 92.2
Muito interesse 117 7.7 7.8 100.0
Total 1503 99.5 100.0
Missing Não sabe 2 .1
Recusa 6 .4
Total 8 .5
Total 1511 100.0

2.5.4. Variáveis de contagem de ocorrências
Exemplo: pretende-se criar uma variável – partciv – que traduza o Índice de participação cívica,
que integre (conte) apenas os inquiridos que responderam sim (1) às questões b15 a
b24.
A variável partciv acrescentar-se-á à base.
Índice sintético de Participação cívica
Cumulative
Valid 0 1174 77.7 77.7 77.7
1 145 9.6 9.6 87.3
2 85 5.6 5.6 92.9
3 39 2.6 2.6 95.5
4 30 2.0 2.0 97.5
5 16 1.1 1.1 98.5
6 9 .6 .6 99.1
7 11 .7 .7 99.9
9 1 .1 .1 99.9
10 1 .1 .1 100.0
Total 1511 100.0 100.0
A interpretação é a seguinte: 77,7% (1174) inquiridos não assinalaram nenhum indicador, 9,6%
(145) assinalaram apenas 1, 5,6% (85) assinalaram 2, etc.

2.6. Selecção de casos
Exemplo 1: selecção de uma sub-amostra

Pretende-se seleccionar (filtrar) apenas os inquiridos da região de Lisboa e Vale do Tejo
(regiao=3).
Na base de dados (Data View) os registos não seleccionados (filtrados) aparecem tracejados,
mantendo-se assim até que se anule a selecção (filtro). A barra de status informa que a base está
filtrada:
Nota muito importante: não esquecer de desactivar o filtro quando não for necessário:

Exemplo 2: Selecção de uma amostra aleatória simples

Pretende-se seleccionar uma amostra de 5% dos casos, aproximadamente:
Na base de dados (Data View) os registos não seleccionados (filtrados) aparecem tracejados,
mantendo-se assim até que se anule a selecção (filtro). A barra de status informa que a base está
filtrada:
Nota muito importante: não esquecer de desactivar o filtro quando não for necessário:

Exemplo 3: Separar a análise por grupos
Pretende-se separar a análise pelas 4 categorias (sub-amostras) da variável sexid (sexo e idade).
É possível obter os resultados na mesma tabela, seleccionando a opção Compare groups ou em
tabelas diferentes, com a opção Output by groups:
No primeiro caso, os resultados são os seguintes:
Sexo e Idade N Minimum Maximum Mean Std. Deviation

Índice sintético de Confiança social 156 1.0 9.0 4.859 1.4670
Homens até 30 anos Índice sintético de Confiança institucional 147 .0 8.5 4.248 1.7428
Homens com mais
de 30 anos
Mulheres até 30 Índice sintético de Confiança institucional 168 .0 8.0 4.116 1.6234
anos Valid N (listwise)
167

Mulheres com mais
de 30 anos

No segundo caso seriam produzidas 4 tabelas, uma por cada categoria da variável colocada em
split:
Descriptive Statisticsa

Índice sintético de
156 1.0 9.0 4.859 1.4670
Confiança social
147 .0 8.5 4.248 1.7428
Confiança institucional
a. Sexo e Idade = Homens até 30 anos

456 .0 10.0 4.259 1.8100
Confiança social
440 .0 9.3 4.066 1.8441
a. Sexo e Idade = Homens com mais de 30 anos

182 .0 9.3 4.604 1.6277
Confiança social
168 .0 8.0 4.116 1.6234
a. Sexo e Idade = Mulheres até 30 anos

686 .0 10.0 4.153 1.7629
Confiança social
583 .0 9.3 4.075 1.7401
a. Sexo e Idade = Mulheres com mais de 30 anos


Avaliação deste módulo consiste em criar uma base de dados para o excerto do
seguinte questionário:
Avaliação


Referências
-
Pereira, A. (1999), SPSS-Guia Prático de Utilização, Análise de
Dados para Ciências Sociais e Psicologia, Lisboa, Edições Sílabo, 6ª
edição revista e corrigida.
- Vinacua, B. V. (2002), Análisis Estadístico con SPSS para Windows. Volumen I.
Estadística básica, Madrid, McGraw-Hill, 2ª edición.

Capítulo
3
Capítulo 3 – Estatística aplicada com SPSS

Objectivos O objectivo geral deste capítulo é o de proceder à análise estatística de dados,
nomeadamente:
o Análise univariada – frequências e distribuições;
o Análise bivariada – Cruzamentos, testes de hipóteses e inferência
estatística;
o Análise multivariada:
Previsão - Regressão linear simples e múltipla;
Detectar dimensões latentes - Análise das componentes
principais;
Segmentação: Análise de Clusters
– Frequências

Palavras
–
–
–
–
–
Cruzamentos
Testes de hipóteses
Inferência estatística
Margem de erro
Intervalo de confiança
– Significância estatística

3.1. Análise de dados univariada

3.1. 1. Frequências
a) Utilizando o comando Frequencies7
Variáveis de caracterização social:

Conteúdo
Sexo
Cumulative
Valid Masculino 630 41.7 41.7 41.7
Feminino 881 58.3 58.3 100.0
Total 1511 100.0 100.0
Idade
Cumulative
Valid Até 30 anos 341 22.6 22.6 22.6
31 - 50 anos 505 33.4 33.4 56.0
51 - 65 anos 315 20.8 20.8 76.8
> 65 anos 350 23.2 23.2 100.0
Total 1511 100.0 100.0
Anos de escolaridade concluídos
Cumulative
Valid Até 9 anos 1046 69.2 69.3 69.3
10 - 12 anos 251 16.6 16.6 86.0
> 12 anos 212 14.0 14.0 100.0
Total 1509 99.9 100.0
Missing NR 2 .1
Total 1511 100.0
7
Nota: as tabelas geradas pelo procedimento Frequencies são em formato “rascunho” destinando-se apenas ao
controlo e validação da base de dados, com o objectivo de eliminar erros de introdução de dados.

b) Utilizando o comando Tables
Os resultados são os seguintes8:
N %
Masculino 630 41.7
Sexo Feminino 881 58.3
Total 1511 100.0
Até 30 anos 341 22.6
31 - 50 anos 505 33.4
Idade 51 - 65 anos 315 20.8
> 65 anos 350 23.2
Total 1511 100.0
Até 9 anos 1046 69.2
Anos de 10 - 12 anos 251 16.6
escolaridade > 12 anos 212 14.0
concluídos NR 2 .1
Total 1511 100.0
8
Nota: o quadro foi modificado no respectivo editor, a que se acede “clicando” duas vezes sobre o mesmo.

c) Quadro de frequências (%) dos indicadores das questões d18 a d24
Concorda Nem Discorda

totalmente Concorda concorda Discorda totalmente Total
As pessoas que vêm viver e trabalhar para cá fazem nem
11.7 41.3 15.1 25.4 6.5 100.0
com que os salários baixem
As pessoas que vêm viver e trabalhar para cá, em
regra, prejudicam mais as expectativas económicas 14.1 46.1 19.4 16.2 4.3 100.0
dos pobres do que dos ricos
As pessoas que vêm viver e trabalhar para cá
ajudam a preencher lugares em que há falta de 13.7 53.7 16.7 12.3 3.6 100.0
trabalhadores
Se as pessoas que vieram viver e trabalhar para cá
estiverem desempregadas por muito tempo deviam 14.3 42.3 22.1 16.2 5.2 100.0
ser obrigadas a ir embora
As pessoas que vieram viver para cá devem ter os
25.9 54.0 12.5 6.0 1.6 100.0
mesmos direitos do que todas as outras pessoas
As pessoas que vieram viver para cá cometerem um
43.3 40.1 9.3 6.2 1.0 100.0
crime grave, devem ser obrigadas a ir embora
As pessoas que vieram viver para cá cometerem
26.6 38.5 19.0 13.2 2.7 100.0
qualquer crime, devem ser obrigadas a ir embora

3.1. 2. Estatísticas descritivas e gráfico de perfil
Nota muito importante: A análise estatística, excepto nos quadros de frequências,

deve incidir apenas nas respostas válidas. Assim, antes de efectuar qualquer análise
estatística, torna-se necessário definir e activar os respectivos missing values (não
responde/não sabe/não se aplica) na coluna missing da base de dados.
a) Utilizando o comando Descriptives9
Indicadores das questões d10 a d17:

Ter qualificações profissionais de que o país precisa 1448 0 10 7.46 2.241
Querer adaptar-se ao mesmo modo de vida do país 1449 0 10 7.11 2.442
Ser rico 1447 0 10 6.81 2.807
Ter familiares próximos a viver cá 1454 0 10 6.48 2.425
Ter boas qualificações académicas 1416 0 10 6.06 2.536
Saber falar a língua oficial do país 1466 0 10 6.05 2.633
Ter formação cristã 1440 0 10 3.79 2.971
Ser branco 1451 0 10 2.85 2.874
9
Nota: as tabelas geradas pelo procedimento Descriptives são em formato “rascunho” destinando-se apenas ao
controlo e validação da base de dados, com o objectivo de eliminar erros de introdução de dados.

Média Desvio-padrão
Ter boas qualificações académicas 6.1 2.5
Ter familiares próximos a viver cá 6.5 2.4
Saber falar a língua oficial do país 6.1 2.6
Ter formação cristã 3.8 3.0
Ser branco 2.8 2.9
Ser rico 6.8 2.8
Ter qualificações profissionais de que o país precisa 7.5 2.2
Querer adaptar-se ao mesmo modo de vida do país 7.1 2.4

c) Gráfico de perfil10:
7.1
Querer adaptar-se ao mesmo modo de vida do país
7.5
Ter qualificações profissionais de que o país precisa
6.8
Ser rico
2.8
Ser branco
3.8
Ter formação cristã
6.1
Saber falar a língua oficial do país
6.5
Ter familiares próximos a viver cá
6.1
Ter boas qualificações académicas
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
Nenhuma importância Muita importância
10
Para obter um gráfico interactivo de linhas, o procedimento é o seguinte: Graph/Interactive/Line, seleccionam-se
todas as variáveis em simultâneo pressionando a tecla “Ctrl” e arrastam-se para “horizontal”.
O gráfico do exemplo foi editado e transformado, tendo-se alterado a escala para o formato real e a cor da linha e
acrescentado as etiquetas (valores e mínimo e máximo), a grelha e a linha de referência.

3.1.3. Testes de aderência (para 1 amostra)

3.1.3.1. χ2 (Qui-quadrado)
Exemplo 1: Pretende-se testar se a classe social (classe2) tem uma distribuição uniforme11 no
universo.
Como a variável é nominal, o procedimento consiste em realizar o teste de aderência

do χ2 (All categories equal):
Classes sociais (ACM) próprio

Test Statistics
Observed N Expected N Residual
Empresários, dirigentes Classes
175 256.6 -81.6
e profissionais liberais sociais (ACM)
Profissionais técnicos e próprio
191 256.6 -65.6 Chi-Square a
de enquadramento 366.123
Trabalhadores df 4
81 256.6 -175.6
independentes Asymp. Sig. .000
Empregados executantes 413 256.6 156.4 a. 0 cells (.0%) have expected frequencies less than
Operários 423 256.6 166.4 5. The minimum expected cell frequency is 256.6.
Total 1283
Interpretação: A variável classe social não segue uma distribuição uniforme no universo
(χ2(4)=366,123; p=0,000).
11
Testando se as frequências observadas são iguais às frequências esperadas.

3.1.3.2. Kolmogorov-Smirnov
Exemplo: Pretende-se testar se o interesse pela política (ib1) segue uma distribuição normal ou
uniforme no universo.
Como a variável é ordinal, o procedimento consiste em realizar o teste de aderência

de Kolmogorov-Smirnov para as duas distribuições:
One-Sample Kolmogorov-Smirnov Test One-Sample Kolmogorov-Smirnov Test 2
Qual o seu Qual o seu

interesse interesse
pela política pela política
N 1503 N 1503
Normal Parameters a,b Mean 2.13 Uniform Parameters a,b Minimum 1
Std. Deviation .961 Maximum 4
Most Extreme Absolute .206 Most Extreme Absolute .325
Differences Positive .206 Differences Positive .325
Negative -.198 Negative -.078
Kolmogorov-Smirnov Z 8.001 Kolmogorov-Smirnov Z 12.613
Asymp. Sig. (2-tailed) .000 Asymp. Sig. (2-tailed) .000
a. Test distribution is Normal. a. Test distribution is Uniform.
b. Calculated from data. b. Calculated from data.
Interpretação: A variável interesse pela política não segue uma distribuição normal
(K-S=8,001; p=0,000) nem uniforme (K-S=12,613; p=0,000) no universo.

3.1.3.3 Teste t de Student
Exemplo: Pretende-se testar se a confiança social adere à média que corresponde ao centro da
escala (5)12 dos indicadores que compõem a variável (confsoc).
Como a variável é quantitativa, o procedimento consiste em realizar o teste t de

aderência (One-Sample T-Test), comparando se a média observada difere
significativamente de 5:
One-Sample Statistics
Std. Error
N Mean Std. Deviation Mean
1480 4.316 1.7469 .0454
Confiança social
One-Sample Test
Test Value = 5
95% Confidence
Mean Interval of the Difference
t df Sig. (2-tailed) Difference Lower Upper
-15.073 1479 .000 -.684 -.774 -.595
Confiança social
Interpretação: A média observada é 4,3, diferindo significativamente da média de referência

(t(1479)= -15,073; p=0,000).
12
A escala de medida dos indicadores de confiança social varia entre 0=nenhuma e 10=toda.

3.2. Análise de dados bivariada

3.2.1. Cruzamentos e teste de independência χ2 (Qui-quadrado)
Exemplo 1: Pretende-se saber se há relação entre o sexo e o facto de ter comprado produtos por
razões de ordem política, ética ou ambiental.
O procedimento consiste em cruzar as variáveis sexo (f2) e (b22) e solicitar o teste

de independência do χ2*.
a) Utilizando o comando Crosstabs
Sexo * Comprou produtos por razões de ordem política,

ética ou ambiental Crosstabulation
% within Sexo
Comprou produtos por
razões de ordem
política, ética ou
ambiental
Sim Não Total
Sexo Masculino 7.2% 92.8% 100.0%
Feminino 7.7% 92.3% 100.0%
Total 7.5% 92.5% 100.0%
Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.

Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square .121b 1 .728
Continuity Correction a .062 1 .804
Likelihood Ratio .122 1 .727
Fisher's Exact Test .766 .404
Linear-by-Linear
.121 1 .728
Association
N of Valid Cases 1495
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
46.75.
*
Para a selecção dos testes estatísticos, ver o Anexo 1.

Interpretação: As mulheres compram ligeiramente mais que os homens mas as diferenças não
são estatisticamente significativas (χ2 (1)=0,121; p>0,05).

Comprou produtos por razões de

ordem política, ética ou ambiental
Sim Não Total
Sexo Masculino 7.2 92.8 100.0
Feminino 7.7 92.3 100.0
Total 7.5 92.5 100.0
Pearson Chi-Square Tests
Comprou
produtos por
razões de
ordem
política, ética
ou ambiental
Sexo Chi-square .121
df 1
Sig. .728
Results are based on nonempty rows and
columns in each innermost subtable.

3.2.2. Testes não paramétricos (procedimento Non Parametric Tests)

3.2.2.1. Duas amostras independentes
(Mann-Whitney e Kolmogorov-Smirnov)
Exemplo 1: Pretende-se testar se há relação entre o sexo (f2) e o interesse pela política (ib1).
O procedimento consiste na realização do teste não paramétrico para 2 amostras

independentes (Mann-Whitney)13.
Test Statisticsa
Qual o seu
Ranks interesse
Sexo N Mean Rank Sum of Ranks pela política
Qual o seu interesse Masculino 628 815.82 512336.00 Mann-Whitney U 234670.000
pela política Feminino 875 706.19 617920.00 Wilcoxon W 617920.000
Total 1503 Z -5.058
Asymp. Sig. (2-tailed) .000
a. Grouping Variable: Sexo
Interpretação: a média das ordenações (Mean Rank) é superior nos homens. Ou seja, os homens
referem que têm mais interesse pela política do que as mulheres. As diferenças são
estatisticamente significativas (M-W=234670; p=0,000).
13
Consultar o Anexo 1.

Exemplo 2: Pretende-se testar se há relação entre o sexo (f2) e o grau de escolaridade (escol).
O procedimento consiste na em fazer o cruzamento entre as 2 variáveis e realizar do

teste não paramétrico para duas amostras independentes (Kolmogorov-Smirnov)14.
14

Anos de escolaridade concluídos

Até 9 anos 10 - 12 > 12 anos Total
Sexo Masculino 67.9 anos18.9 13.2 100.0
Feminino 70.3 15.0 14.7 100.0
Total 69.3 16.6 14.0 100.0
Test Statisticsa
Escolaridade
Most Extreme Absolute .025
Differences Positive .025
Negative -.014
Kolmogorov-Smirnov Z .476
Asymp. Sig. (2-tailed) .977
a. Grouping Variable: Sexo
Interpretação: Tanto no grau de escolaridade intermédio como no superior, verifica-se que há

mais homens do que mulheres, observando-se o inverso no grau de escolaridade mais baixo. No
entanto, as diferenças não são estatisticamente significativas (K-S=0,476; p>0,05).
3.2.2.2. K amostras independentes (Kruskal-Wallis)
Exemplo: Pretende-se testar se há relação entre a idade (idade2) e o interesse pela política (ib1).
O procedimento consiste na realização do teste não paramétrico para k amostras

independentes (Kruskal-Wallis)15.
15


Nenhum Pouco Algum Muito
interesse interesse interesse interesse Total
Idade Até 30 anos 27.4 33.6 31.9 7.1 100.0
31 - 50 anos 28.0 28.8 32.9 10.3 100.0
51 - 65 anos 30.7 30.4 29.7 9.3 100.0
> 65 anos 45.8 25.1 25.6 3.5 100.0
Total 32.5 29.3 30.3 7.8 100.0
Test Statisticsa,b
Ranks
Qual o seu
Idade N Mean Rank interesse
Qual o seu interesse Até 30 anos 339 777.35 pela política
pela política Chi-Square 36.088
31 - 50 anos 504 803.46
df 3
51 - 65 anos 313 768.74
Asymp. Sig. .000
> 65 anos 347 637.38
a. Kruskal Wallis Test
Total 1503
b. Grouping Variable: Idade
Interpretação: A média das ordenações (Mean Rank) é mais elevada nos que têm entre 31 e 50 anos,
sendo este escalão, por conseguinte, que refere ter mais interesse pela política, enquanto os mais
velhos são os que revelam menos interesse. As diferenças são estatisticamente significativas (K-W
(3)=36,088; p=0,000).

3.2.3. Testes paramétricos (procedimento Compare Means)

3.2.3.1. Duas amostras emparelhadas (t de Student para amostras
emparelhadas)
Exemplo: Pretende-se testar se a média da confiança social (confsoc) é idêntica, ou não, à média
da confiança institucional (confinst).
O procedimento consiste na realização do teste paramétrico para duas amostras

emparelhadas (Paired-Samples T-Test)16.
Paired Samples Statistics
Std. Error
Mean N Std. Deviation Mean
Pair 1 Índice sintético de
4.313 1319 1.7165 .0473
Confiança social
4.087 1319 1.7606 .0485
Paired Samples Correlations
N Correlation Sig.
Confiança social &
1319 .310 .000
Paired Samples Test
Paired Differences
95%
Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Confiança social -
.225 2.0428 .0562 .115 .336 4.009 1318 .000
16

Interpretação: A média da confiança social (4,313) é ligeiramente superior à média da confiança

institucional (4,087). A correlação entre as duas variáveis é média fraca (0,310) e estatisticamente
significativa (p=0,000), sendo igualmente estatisticamente significativa a diferença entre as duas
médias (t (1318)=4,009; p=0,000).
3.2.3.2. Duas amostras independentes

(t de Student de independência)
Exemplo: Pretende-se testar se há relação entre o sexo (f2) e a confiança social (confsoc).
O procedimento consiste na realização do teste paramétrico para duas amostras

independentes (Independent-Samples T-Test)17.
Group Statistics
Std. Error
Sexo N Mean Std. Deviation Mean
Índice sintético de Masculino 612 4.412 1.7476 .0706
Confiança social Feminino 868 4.248 1.7442 .0592
Independent Samples Test
Levene's Test
for Equality of
Variances t-test for Equality of Means
95%
Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
Índice sintético de Equal variances assumed .182 .669 1.781 1478 .075 .164 .0921 -.0167 .3448
Confiança social Equal variances not
1.780 1313.926 .075 .164 .0922 -.0167 .3449
assumed
17

Interpretação: Os homens (4,412) revelam mais confiança social que as mulheres (4,248) 18 ,
embora a diferença não seja estatisticamente significativa, (t (1480)=1,808; p> 0,05).
3.2.3.3. k amostras independentes (Análise de Variância Simples Paramétrica -

ANOVA)
Exemplo: Pretende-se testar se há relação entre a idade (idade2) e a confiança social (confsoc).
O procedimento consiste na realização da Análise de Variância Simples Paramétrica

(One-way Anova)19.
Descriptives
Índice sintético de Confiança social

95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
Até 30 anos 338 4.722 1.5585 .0848 4.555 4.889 .0 9.3
31 - 50 anos 497 4.058 1.6747 .0751 3.911 4.206 .0 9.3
51 - 65 anos 312 4.068 1.8340 .1038 3.864 4.273 .0 10.0
> 65 anos 333 4.519 1.8500 .1014 4.319 4.718 .0 10.0
Total 1480 4.316 1.7469 .0454 4.226 4.405 .0 10.0
18
O índice de confiança social varia entre 0=nenhuma confiança e 10=toda a confiança.
19

Test of Homogeneity of Variances

Levene
Statistic df1 df2 Sig.
4.050 3 1476 .007
ANOVA

Sum of
Squares df Mean Square F Sig.
Between Groups 121.466 3 40.489 13.607 .000
Within Groups 4391.954 1476 2.976
Total 4513.420 1479
Interpretação: São os mais novos (4,722), seguidos dos mais velhos (4,519) que mais confiam.
Os escalões intermédios 31-50 anos (4,058) e 51-65 anos ( (4,068) confiam um pouco menos. As
diferenças são estatisticamente significativas (F (3)=13,787; p=0,000).
Nota: sendo as diferenças estatisticamente significativas, importa saber quais os grupos que
diferem uns dos outros. Para o efeito realiza-se um teste à posteriori (Post Hoc). O SPSS
disponibiliza vários testes para este fim, sendo os mais utilizados, o teste de Scheffe20, no caso de
as variâncias serem iguais, e o teste Games-Howell no caso de serem diferentes.
Neste caso, uma vez que se rejeita a hipótese de as variâncias serem iguais (p=0,007), vamos
solicitar o teste Games-Howell:
20
Que é também o mais conservador,

Multiple Comparisons
Dependent Variable: Índice sintético de Confiança social

Games-Howell
Mean 95% Confidence Interval

(I) Idade (J) Idade Difference (I-J) Std. Error Sig. Lower Bound Upper Bound
Até 30 anos Até 30 anos
31 - 50 anos .664* .1133 .000 .372 .955
51 - 65 anos .654* .1340 .000 .308 .999
> 65 anos .203 .1321 .415 -.137 .544
31 - 50 anos Até 30 anos -.664* .1133 .000 -.955 -.372
31 - 50 anos
51 - 65 anos -.010 .1282 1.000 -.340 .320
> 65 anos -.460* .1262 .002 -.785 -.135
51 - 65 anos Até 30 anos -.654* .1340 .000 -.999 -.308
31 - 50 anos .010 .1282 1.000 -.320 .340
51 - 65 anos
> 65 anos -.450* .1451 .011 -.824 -.076
> 65 anos Até 30 anos -.203 .1321 .415 -.544 .137
31 - 50 anos .460* .1262 .002 .135 .785
51 - 65 anos .450* .1451 .011 .076 .824
> 65 anos
*. The mean difference is significant at the .05 level.
Interpretação: os grupos que diferem estatisticamente entre si estão assinalados com um *. O

quadro seguinte sintetiza as diferenças significativas entre os quatro escalões etários
Até 30 anos 31-50 anos 51-65 anos > 65 anos

Até 30 anos X X
31-50 anos X X
51-65 anos X X
> 65 anos X X

3.2.4. Correlação linear simples
A correlação linear simples permite obter uma medida (coeficiente de correlação – r de Pearson)
através da qual se determina a força ou intensidade de uma associação linear entre duas ou mais
variáveis quantitativas ou tratadas como tal (escalas tipo Likert).
O coeficiente de correlação varia entre –1 e 121 e deve ser interpretado da seguinte forma:
0: ausência de correlação;
+/- ]0 – 0,25]: correlação muito fraca;
+/- ]0,25 – 0,40] correlação fraca;
+/- ]0,40 – 0,60] correlação média;
+/- ]0,60 – 0,75] correlação média forte;
+/- ]0,75 – 0,90] correlação forte;
+/- ]0,90 – 1[ correlação muito forte;
+/- 1 correlação perfeita
Exemplo: Correlação entre as variáveis satisfação com a vida (b29), com a economia (b30), com o
Governo (b31), com a democracia (b32), com a educação (b33) e com os serviços de
saúde (b34):
21
O sinal – significa uma correlação negativa e a ausência de sinal uma correlação positiva.

Correlations
Satisfação
com a vida Serviços
em geral Economia Governo Democracia Educação de Saúde
Satisfação com a Pearson Correlation
vida em geral Sig. (2-tailed)
N
Economia Pearson Correlation .339**
Sig. (2-tailed) .000
N 1441
Governo Pearson Correlation .280** .578**
Sig. (2-tailed) .000 .000
N 1413 1392
Democracia Pearson Correlation .348** .403** .507**
Sig. (2-tailed) .000 .000 .000
N 1371 1353 1339
Educação Pearson Correlation .205** .361** .289** .300**
Sig. (2-tailed) .000 .000 .000 .000
N 1429 1389 1367 1338
Serviços de Saúde Pearson Correlation .195** .396** .340** .294** .537**
Sig. (2-tailed) .000 .000 .000 .000 .000
N 1489 1440 1412 1370 1433
**. Correlation is significant at the 0.01 level (2-tailed).
Interpretação: as correlações são positivas e significativas entre todas as variáveis ; (p=0,000),

sendo a menor entre a satisfação com a vida e com a educação (0,209e a maior entre a satisfação
com o Governo e com a economia (0,577

3.3. Modelos de previsão

3.3.1. Análise de Regressão Simples
A regressão linear, como referem Bryman e Cramer, “é um poderoso instrumento para resumir a
natureza da associação entre variáveis e para fazer previsões acerca dos valores da variável
dependente”.22
Na regressão linear simples, o objectivo é sintetizar a associação entre duas variáveis

(independente e dependente), produzindo uma linha (recta de regressão) que se aproxime dos
dados recolhidos. Ou seja, prever Y (variável dependente) a partir de X (variável independente).
Exemplo: pretende-se saber em que medida é que a confiança social (confsoc) – variável
independente – explica a confiança institucional (confinst) – variável dependente.
O procedimento consiste na realização da Análise de regressão linear simples entre as

duas variáveis:
22
Alan Bryman e Duncan Cramer, op.cit.: 212

Model Summary
Adjusted Std. Error of

Model R R Square R Square the Estimate
1 .310a .096 .095 1.6746
a. Predictors: (Constant), Índice sintético de Confiança
social
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 392.354 1 392.354 139.912 .000a
Residual 3693.263 1317 2.804
Total 4085.617 1318
a. Predictors: (Constant), Índice sintético de Confiança social
b. Dependent Variable: Índice sintético de Confiança institucional
Coefficients a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2.716 .125 21.778 .000
.318 .027 .310 11.828 .000
Confiança social
a. Dependent Variable: Índice sintético de Confiança institucional
Interpretação: A correlação entre as variáveis é fraca (R=0,310) e o coeficiente de determinação

é muito fraco (R2=0,096)23. Ou seja, apenas 9,6% da variação da confiança institucional – variável
dependente – é explicada pela variação da confiança social – variável independente.
O teste F (quadro Anova) dá-nos informação sobre a adequabilidade do modelo, testando a

hipótese do coeficiente de determinação R2 ser 0 na população. Neste caso (F (1)=141,178;
p=0,000), rejeita-se a hipótese de isso acontecer.
Os testes t (no quadro dos Coefficients), testam a nulidade dos coeficientes. No primeiro caso
(t=115,605; p=0,000) testa a probabilidade de a constante (recta de regressão na origem) ser 0, e
no segundo caso testa a probabilidade do coeficiente de regressão ser 0.
A recta da regressão24, neste caso, é a seguinte: Confiança institucional = 2,716 + 0,318 confiança
social.
23
O coeficiente de determinação quantifica a percentagem de variação da variável dependentes que é explicada pela
variação da variável independente.
24
A equação simplificada da recta da regressão é a seguinte: Yi = β0 + β1 Xi, em que Yi é a variável dependente, β0 é a
ordenada na origem, β 1 é o coeficiente de regressão e Xi é a variável independente.

3.3.2. Análise de Regressão Múltipla
A regressão, como referem Bryman e Cramer, “é um poderoso instrumento para resumir a

natureza da associação entre variáveis e para fazer previsões acerca dos valores da variável
dependente”.25
No nosso exemplo vamos usar a análise de regressão múltipla – em concreto a linear – para
modelar a relação entre as variáveis independentes e a variável dependente26.
Exemplo: com base nos dados do ESS, pretende-se saber se os níveis de satisfação com o estado
da Economia portuguesa (b30), com a forma como o Governo tem governado (b31),
com a qualidade da Democracia (b32), com o estado da Educação (b33) e com os
Serviços de Saúde (b33) são, ou não, predictores da satisfação com a vida em geral
(b29):
Variável dependente
Variáveis independentes
(b30, b31, b32, b33 e b34)
Método: Stepwise
(Neste método entram no modelo
apenas as variáveis independentes
com significância estatística, por
ordem de importância.)
Nota: é habitual usar-se o método
ENTER quando se pretende
testar um modelo e o método
Stepwise em contextos
exploratórios, como é o caso.
25
Bryman, A. e D. Cramer, Análise de Dados em Ciencias Sociais, Oeiras, Celta, 2003.
26
Quando se associa às variáveis o estatuto de independentes e dependente pretende-se analisar mais do que a
associação entre elas (entenda-se variação conjunta), descrever e explicar uma relação de dependencia que deverá
ser teóricamente fundamentada.

Procedimentos seleccionados:
• Informação sobre a significância

estatística da mudança de R2;
• Informação sobre
multicolinearidade;
• Intervalo de confiança para cada
um dos coeficientes de regressão
Resultado:
Variables Entered/Removed a
Variables Variables
Model Entered Removed Method • Variáveis que
1 Stepwise (Criteria: Probability-of-F-to-enter
Democracia .
<= .050, Probability-of-F-to-remove >= .100).
entraram nos
2
Economia .
Stepwise (Criteria: Probability-of-F-to-enter modelos
<= .050, Probability-of-F-to-remove >= .100).
a. Dependent Variable: Satisfação com a vida em geral
ANOVAc O objectivo do teste F é

verificar se a variável
Sum of
Model Squares df Mean Square F Sig. independente influencia a
1 Regression 760.940 1 760.940 174.812 .000a variável dependente no
Residual 5610.899 1289 4.353 universo. O que equivale a
Total 6371.839 1290 detectar se o modelo
2 Regression 1051.123 2 525.562 127.224 .000b ajustado é ou não
Residual 5320.716 1288 4.131
significativo.
Total 6371.839 1290
Permite inferir sobre a
a. Predictors: (Constant), Democracia
adequabilidade do modelo
b. Predictors: (Constant), Democracia, Economia
linear para explicar a relação
c. Dependent Variable: Satisfação com a vida em geral
entre as duas variáveis.
Model Summary
Change Statistics
Adjusted Std. Error of R Square
Model R R Square R Square the Estimate Change F Change df1 df2 Sig. F Change
1 .346a .119 .119 2.086 .119 174.812 1 1289 .000
2 .406b .165 .164 2.032 .046 70.245 1 1288 .000
a. Predictors: (Constant), Democracia
b. Predictors: (Constant), Democracia, Economia
Coeficiente de correlação % de variação da satisfação

múltipla em módulo com a vida em geral explicada Teste F e
pelas variáveis independentes Contributo das variáveis
respectiva
que entraram no modelo independentes para a
significância
Nota: Em modelos com mas do que 1 mudança verificada no R2;
estatística
variável independente deve interprtar-
se o R2 ajustado

Coefficientsa
Unstandardized Standardized 95% Confidence Interval for Collinearity

Coefficients Coefficients B Statistics
Model B Std. Error Beta t Sig. Lower Bound Upper Bound Tolerance VIF
1 (Constant) 4.221 .133 31.764 .000 3.960 4.481
Democracia .350 .026 .346 13.222 .000 .298 .402 1.000 1.000
Economia
2 (Constant) 3.841 .137 28.013 .000 3.572 4.110
Democracia .254 .028 .251 9.002 .000 .199 .309 .835 1.197
Economia .276 .033 .234 8.381 .000 .212 .341 .835 1.197
a. Dependent Variable: Satisfação com a vida em geral
Quando a tolerância é baixa, a correlação

Coeficientes de regressão standardizados e não múltipla é elevada e existe a possibilidade de
standardizados que permitem escrever a equação da multicolinearidade. Com estes valores, a
recta: probabilidade de isso acontecer é baixa.
Satisfação com a vida = 3,841 + 0,254 satisfação com a Varia entre [0, 1] e quanto mais perto de 0 maior
democracia + 0,276 satisfação com a economia. será a multicolinearidade entre certa variável
independente e as outras variáveis independentes.

3.4. Análise de dados multivariada

3.4.1. Análise das Componentes Principais
A Análise das Componentes Principais é um dos métodos de redução de dados mais comum no
marketing e em pesquisas de mercado. É “uma técnica de análise exploratória multivariada que
transforma um conjunto de variáveis correlacionadas entre si num conjunto menor de variáveis
independentes, combinações lineares das variáveis originais, designadas por componentes
principais”27. No essencial, o seu objectivo “é identificar novas variáveis, em número menor que o
conjunto inicial, mas sem perda significativa da informação contida neste conjunto”28.
No nosso exemplo, pretendemos identificar as “componentes principais” latentes nos 8

indicadores relativos às atitudes face à imigração (d10 + d11 + d12 + d13 + d14 + d15 + d16 +
d17).
Vamos começar por solicitar uma ACP com a extracção das componentes por defeito (critério de
Kaiser: valor próprio das componentes ≥ a 1).
• Selecção das
variáveis;
27
Moroco, J. Análise Estatística com utilização do SPSS, Lisboa, Sílabo, 2003: 231.
28
Reis, E., Análise factorial das componentes principais: um método de reduzir sem perder informação, Lisboa
Giesta/Iscte, 1990.

• Kaiser-Meyer-Olkin: quantifica
o nível de intercorrelações entre
as variáveis;
• Testa a hipótese de a matriz de
correlações na população ser a
matriz identidade.
• Critério de Kaiser de
extracção das componentes
que o SPSS usa por defeito.
São extraídas as
componentes com valores
próprias superiores a 1.
Cada componente deve
contribuir para a variância,
como se de uma variável de
input se tratasse.
• Rotação das componentes e

respectiva matriz.
Nota: tem o objectivo de ajudar a
interpretar as componentes
• Ordena a matriz rodada por ordem

decrescente da contribuição de
cada variável para a componente;

Adequabilidade da ACP:
KMO Qualidade da ACP

KMO and Bartlett's Test 1 – 0,9 Muito boa
Kaiser-Meyer-Olkin Measure of Sampling 0,8 – 0,9 Boa
Adequacy. .812
0,7 – 0,8 Média
Bartlett's Test of Approx. Chi-Square 3474.721 0,6 – 0,7 Razoável
Sphericity df 28
Sig.
0,5 –0,6 Má
.000
>0,5 Inaceitável
De acordo com os resultados da estatística KMO (0,812) e do teste de esfericidade de Bartlett

(p=0,000), a adequabilidade da ACP é boa.
Total Variance Explained
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Component Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 3.518 43.975 43.975 3.518 43.975 43.975 3.007 37.587 37.587
2 1.283 16.043 60.018 1.283 16.043 60.018 1.795 22.432 60.018
3 .978 12.230 72.248
4 .539 6.739 78.987
5 .493 6.165 85.153
6 .419 5.244 90.396
7 .391 4.885 95.282
8 .377 4.718 100.000
Extraction Method: Principal Component Analysis.
Como podemos observar, por defeito foram extraídas duas componentes, que explicam cerca de
60% da variância total.
Verificando-se que a terceira componente tem uma valor próprio próximo de 1 (0,984) e que
aumenta a variância explicada em 12,3%, vamos forçar a sua extracção e gravar as três
componentes extraídas como novas variáveis:

• Cria novas variáveis compostas pelos

scores factoriais das componentes
extraídas.
Std. Analysis
Mean Deviation N KMO and Bartlett's Test
Ter boas qualificações académicas 6.11 2.527 1330 Kaiser-Meyer-Olkin Measure of Sampling
Ter familiares próximos a viver cá 6.44 2.407 1330 Adequacy. .812
Saber falar a língua oficial do país 6.01 2.615 1330
Ter formação cristã 3.77 2.906 1330 Bartlett's Test of Approx. Chi-Square 3474.721
Ser branco 2.82 2.825 1330 Sphericity df 28
Ser rico 6.77 2.812 1330 Sig. .000
Ter qualificações profissionais de que o país precisa 7.45 2.247 1330
Querer adaptar-se ao mesmo modo de vida do país 7.07 2.448 1330
Communalities
As Comunalidades representam a
Initial Extraction
Ter boas qualificações académicas 1.000 .590
proporção de variância da variável
Ter familiares próximos a viver cá 1.000 .788 explicada pelas componentes.
Saber falar a língua oficial do país 1.000 .719 Variáveis com comunalidades
Ter formação cristã 1.000 .756
Ser branco 1.000 .786
reduzidas (0,3 ou inferior) são
Ser rico 1.000 .722 pouco explicadas pelas
Ter qualificações profissionais de que o país precisa 1.000 .749 componentes e contribuem pouco
Querer adaptar-se ao mesmo modo de vida do país 1.000 .669
para a sua definição.
Total Variance Explained
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Component Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 3.518 43.975 43.975 3.518 43.975 43.975 2.152 26.898 26.898
2 1.283 16.043 60.018 1.283 16.043 60.018 1.951 24.389 51.287
3 .978 12.230 72.248 .978 12.230 72.248 1.677 20.961 72.248
4 .539 6.739 78.987
5 .493 6.165 85.153
6 .419 5.244 90.396
7 .391 4.885 95.282
8 .377 4.718 100.000

Rotated Component Matrixa
Component
1 2 3
Ter qualificações profissionais de que o país precisa .785 .361 -.053
Querer adaptar-se ao mesmo modo de vida do país .775 .244 .089
Ser rico .771 -.014 .358
Ter familiares próximos a viver cá .110 .880 .047
Saber falar a língua oficial do país .260 .741 .319
Ter boas qualificações académicas .487 .587 .090
Ser branco .124 .011 .878
Ter formação cristã .094 .305 .809
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 4 iterations.
Foram extraídas 3 componentes (factores), que explicam 72,25% da variância total.
A matriz rodada29 ajuda-nos a identificar e a designar as componentes:

– Componente 1: recursos profissionais e económicos;
– Componente 2: facilidades de integração;
– Componente 3: características raciais e religiosas.
– Caracterização social das três “Componentes Principais”
0,05
0,20
média
0,00
média
0,00
-0,05
-0,20
Recursos profissionais e económicos Recursos profissionais e económicos

Facilidades de integração Facilidades de integração
Sexo Características raciais e religiosas Idade Características raciais e religiosas
Masculino Até 30 anos
Feminino 31 - 50 anos
51 - 65 anos
> 65 anos
29
O SPSS utiliza várias formas de rotação, sendo a mais usada a rotação Varimax, de modo a permitir uma mais fácil
interpretação dos factores, pois torna os loadings elevados ainda mais elevados e os loadings baixos ainda mais
baixos. Para a interpretação das componentes consideram-se os loadings mais correlacionados com as mesmas.
Em geral, consideram-se bons os loadings maiores ou iguais a 0,5, por serem pelo menos responsáveis por 25% da
variância. (cfr. Pestana e Gageiro, Análise de Dados para as Ciências Sociais – A complementaridade do SPSS,
Lisboa, Sílabo, 3ª edição, 2003: 504.

0,10
0,10
média
0,00
-0,10
média
0,00
-0,20
-0,30
-0,10
-0,40
Recursos profissionais e económicos

Facilidades de integração
Características raciais e religiosas
Escolaridade Características raciais e religiosas Autoposicionamento político
Até 9 anos Esquerda
10 - 12 anos Centro
> 12 anos Direita
3.4.2. Análise de Clusters
De acordo com Moroco, 30 “a análise de Clusters é uma técnica multivariada que não possui
sólidos fundamentos teóricos e que procura agrupar objectos mais ou menos homogéneos segundo
critérios mais ou menos heurísticos”.
A classificação dos sujeitos em cada um dos clusters é, regra geral, mais rigorosa nos métodos
não-hierárquicos do que nos hierárquicos, podendo a validade das soluções obtidas com os
métodos hierárquicos – segundo Elizabeth Reis – tornar-se bastante limitada. Alguns autores
propõem, por isso, a utilização de métodos não-hierárquicos de optimização que permitam a
partição dos indivíduos num número pré definido de grupos.
A questão de determinação do número de grupos pré definido é, no entanto, um dos principais

problemas a resolver numa análise de clusters. Uma forma simples é a análise do Dendrograma
que, no entanto, só está disponível no método hierárquico, resumindo-se a sua utilidade apenas em
amostras de pequena dimensão. Quando não é esse o caso, ou se se pretende usar um método não-
hierárquico, poder-se-á utilizar primeiro um método hierárquico aglomerativo para determinação
do número de grupos e depois utilizar um método não-hierárquico para optimizar a solução
encontrada.
Uma forma de obviar à limitação do dendrograma na determinação do número de grupos, é

proceder à representação gráfica dos coeficientes de aglomeração mais elevados31, que denotam,
30
Cfr. Reis, Elizabeth, A Análise de Clusters e as Aplicações às Cíências Empresariais: Uma Visão Crítica da Teoria
dos Grupos Estratégicos, in Elizabeth Reis e Manuel Alberto M. Ferreira (eds.) Temas em Métodos Quantitativos
1, Lisboa, Sílabo, 2000: 206-238 e Moroco, João, Análise Estatística com utilização do SPSS, Lisboa, Sílabo,
2003
31
Estes coeficientes são o valor numérico para o qual vários indivíduos ou grupos se unem para formarem um novo
grupo e são disponibilizados pelo SPSS no método hierárquico (Aglomeration Schedule).

por conseguinte, maiores distâncias, “onde a escolha óptima do número de grupos coincidirá com
uma marcada horizontalidade da curva”32.
3.4.2.1. Análise hierárquica de Clusters (Hierarquical Cluster)
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos às atitudes
face à imigração (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
• Selecção das variáveis;

• Para obter os coeficientes de
aglomeração
• Desactivar “Plots”, pois o
Dendrograma seria demasiado
extenso para poder ser
interpretado.
Escolha do Método
Betwen-groups linkage (Distância média entre grupos): a
distância do 1º cluster aos restantes objectos é a média das
distâncias de cada um dos elementos que constituem o
cluster a cada um dos restantes objectos.
• Melhor performance com dados com grande dispersão;
• Influenciado por outliers;
• Tendência para produzir clusters com variâncias
homogéneas.
Within-groups linkage: Este método é semelhante à
“Distância média entre grupos” mas os clusters são unidos
de modo a que a variabilidade dentro dos grupos seja
mínima.
Nearest Neighbor (Vizinho mais próximo): a distância do
1º cluster aos restantes objectos, é a menor das distâncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
• Tendência para formar clusters alongados;
• Menos influenciado por outliers;
Furthest Neighbor (Vizinho mais distante): a distância do
1º cluster aos restantes objectos, é a maior das distâncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
Centroid clustering: a distância entre dois grupos é a
diferença entre as suas médias para todas as variáveis.
• Pior performance com dados com grande dispersão
Median clustering (Distância mediana): A distância entre
Escolhemos o Ward’s method, pois, sendo um dois objectos é a mediana das distâncias de cada um dos
elementos que constituem o cluster a cada um dos restantes
dos métodos mais usado, tem tendência para objectos.
32
Reis, op.cit.

constituir grupos com dimensões idênticas. Ward’s method: optimiza a variância mínima dentro dos
grupos, agrupando os objectos que provoquem um
aumento mínimo da soma dos quadrados dos erros.
• Boa performance com dados com grande dispersão;
• Influenciado por outliers
• Tendência para produzir clusters com dimensão
semelhante.
Para a identificação do nº de clusters, vamos representar graficamente (em Excel) as diferenças

entre os 30 coeficientes de aglomeração com valor mais elevado, produzidos pelo SPSS
(Agglomeration schedule).

Optamos por uma solução de 4 clusters.33
Deveremos agora repetir os procedimentos anteriores no SPSS, desactivar Statistics34 e solicitar a

opção Save, assinalando o nº de clusters que pretendemos:
A variável CLU4-1 (primeira solução com 4 clusters) acrescentou-se à base de dados, tendo sido
completada com os respectivos label.
O nº de elementos em cada cluster é o seguinte:
CLU4_1 Clusters d10 a d17 (Ward Method)
Cumulative
Valid Cluster 1 498 33.0 37.4 37.4
Cluster 2 299 19.8 22.5 59.9
Cluster 3 423 28.0 31.8 91.7
Cluster 4 110 7.3 8.3 100.0
Total 1330 88.0 100.0
Total 1511 100.0
33
Pois são os que apresentam maior distância entre si. No entanto, seria sempre possível ensaiar soluções com mais
clusters. No essencial, mais clusters significam mais homogeneidade entre os seus elementos e menos clusters
menos homogeneidade.
34
Uma vez que já não necessitamos dos coeficientes de aglomeração.

3.4.2.2. Análise não-hierárquica de Clusters - Método de optimização

(K-Means Cluster)
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos às atitudes
face à imigração (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
1. Selecção das
variáveis;
2. Indicação do nº de
Clusters
pretendidos (vamos
indicar 4, de acordo
com o processo
anterior)
3. Criação de uma
nova variável que
regista a pertença
de cada observação
ao cluster
respectivo
A variável QCL_1 (primeira solução com 4 clusters) acrescentou-se à base de dados, tendo sido
completada com os respectivos label.
QCL_1 Clusters d10 a d17 (K-Means)
Cumulative
Valid Cluster 1 334 22.1 25.1 25.1
Cluster 2 459 30.4 34.5 59.6
Cluster 3 324 21.4 24.4 84.0
Cluster 4 213 14.1 16.0 100.0
Total 1330 88.0 100.0
Total 1511 100.0

3.4.3. Articulação entre a Análise das Componentes Principais e a

Análise de Clusters
Para este exemplo interessa saber, no entanto, que “a análise de clusters é uma técnica
multivariada que não possui sólidos fundamentos teóricos e que procura agrupar objectos mais ou
menos homogéneos segundo critérios mais ou menos heurísticos” 35.
Exemplo: Pretende-se criar três clusters (grupos homogéneos) com base nas três componentes
principais obtidas no exercício anterior.
Trata-se de um método de classificação (classifica indivíduos), cujo procedimento, que vai ser
descrito detalhadamente no capítulo 5, é o seguinte:
a) Criação dos clusters
Acrescentou-se à base de dados uma nova variável com 3 categorias, que designámos de Cluster 1,
Cluster 2 e Cluster 3, que agrupa os indivíduos com valores semelhantes nas três Componentes36
35
Moroco, J. Análise Estatística com utilização do SPSS, Lisboa, Sílabo, 2003.
36
Nota: como se torna evidente, os valores são mais ou menos semelhantes quantos mais ou menos clusters criarmos.
Ou seja, mais clusters significa mais homogeneidade entre os clusters.

O nº de elementos em cada cluster é o seguinte:
Clusters Fac1_1+Fac1_2+Fac1_3 (Ward Method)
Cumulative
Valid Cluster 1 480 31.8 36.1 36.1
Cluster 2 624 41.3 46.9 83.0
Cluster 3 226 15.0 17.0 100.0
Total 1330 88.0 100.0
Total 1511 100.0
b) Caracterização dos clusters segundo as variáveis de input
1.00
0.50
(Médias)
0.00
-0.50
-1.00
Cluster 1
Cluster 2
Cluster 3
-1.50
Características raciais e religiosas
Interpretação:
– Cluster 1: dá importância abaixo da média aos “recursos profissionais e económicos” e às

“características raciais e religiosas” e acima da média às “facilidades de integração”;
– Cluster 2: dá importância acima da média aos “recursos profissionais e económicos” e às
“características raciais e religiosas” e média às “facilidades de integração”;
– Cluster 3: dá importância média aos “recursos profissionais e económicos” e abaixo da
média às “facilidades de integração” e às “características raciais e religiosas”.

c) Caracterização social dos clusters
Cluster 1 Cluster 2 Cluster 3 Total

N % N % N % N %
Masculino 211 44.0 252 40.4 106 46.9 569 42.8
Sexo Feminino 269 56.0 372 59.6 120 53.1 761 57.2
Total 480 100.0 624 100.0 226 100.0 1330 100.0
Até 30 anos 148 30.8 117 18.8 51 22.6 316 23.8
31 - 50 anos 179 37.3 197 31.6 93 41.2 469 35.3
Idade 51 - 65 anos 88 18.3 147 23.6 44 19.5 279 21.0
> 65 anos 65 13.5 163 26.1 38 16.8 266 20.0
Total 480 100.0 624 100.0 226 100.0 1330 100.0
Até 9 anos 272 56.7 470 75.4 150 66.4 892 67.1
Anos de 10 - 12 anos 100 20.8 102 16.4 39 17.3 241 18.1
escolaridade
> 12 anos 108 22.5 51 8.2 37 16.4 196 14.7
concluídos
Total 480 100.0 623 100.0 226 100.0 1329 100.0
Esquerda 111 27.3 117 22.5 47 27.6 275 25.1
Autoposicionamento Centro 211 52.0 265 50.9 89 52.4 565 51.5
político Direita 84 20.7 139 26.7 34 20.0 257 23.4
Total 406 100.0 521 100.0 170 100.0 1097 100.0
d) Distribuição dos indivíduos pelos clusters, segundo características sócio-

demográficas
Cluster 1 Cluster 2 Cluster 3 Total

N % N % N % N %
Masculino 211 37.1 252 44.3 106 18.6 569 100.0
Sexo Feminino 269 35.3 372 48.9 120 15.8 761 100.0
Total 480 36.1 624 46.9 226 17.0 1330 100.0
Até 30 anos 148 46.8 117 37.0 51 16.1 316 100.0
31 - 50 anos 179 38.2 197 42.0 93 19.8 469 100.0
Idade 51 - 65 anos 88 31.5 147 52.7 44 15.8 279 100.0
> 65 anos 65 24.4 163 61.3 38 14.3 266 100.0
Total 480 36.1 624 46.9 226 17.0 1330 100.0
Até 9 anos 272 30.5 470 52.7 150 16.8 892 100.0
Anos de 10 - 12 anos 100 41.5 102 42.3 39 16.2 241 100.0
escolaridade
> 12 anos 108 55.1 51 26.0 37 18.9 196 100.0
concluídos
Total 480 36.1 623 46.9 226 17.0 1329 100.0
Esquerda 111 40.4 117 42.5 47 17.1 275 100.0
Autoposicionamento Centro 211 37.3 265 46.9 89 15.8 565 100.0
político Direita 84 32.7 139 54.1 34 13.2 257 100.0
Total 406 37.0 521 47.5 170 15.5 1097 100.0


– A avaliação deste capítulo consiste na avaliação da participação
nas aulas e da realização dos exercícios que compõem o seu
conteúdo.
Avaliação

Referências
– Aranaz, M. F. (2001), SPSS para Windows. Análise Estadístico,
Madrid, McGraw-Hill.
– Bryman, A. e D. Cramer (2003), Análise de Dados em Ciências
Sociais – Introdução às Técnicas Utilizando o SPSS para
Windows, Lisboa, Celta (3ª edição).
– Moroco, J. (2003) Análise Estatística com utilização do SPSS,
Lisboa, Edições Sílabo, 3ª edição.
– Pereira, A. (1999), SPSS-Guia Prático de Utilização, Análise de Dados para Ciências
Sociais e Psicologia, Lisboa, Edições Sílabo, 6ª edição revista e corrigida.
– Pestana, M. H. e J. N. Gageiro (2000), Análise de Dados para as Ciências Sociais – A
Complementaridade do SPSS, Lisboa, Sílabo, 2ª edição revista e aumentada.
– Rada, Vidal Díaz (2002), Técnicas de Análise Multivariante para Investigación Social
e Comercial, Madrid, RA-MA.
– Reis, E., Análise factorial das componentes principais: um método de reduzir sem
perder informação, Lisboa Giesta/Iscte, 1990.
– Vaus, D (2004), Analysing Social Science Data, London, Sage Publications.
– Vinacua, B. V. (2002), Análisis Estadístico con SPSS para Windows. Volumen I.
Estadística básica, Madrid, McGraw-Hill, 2ª edición.
– Vinacua, B. V. e J. C. M Canas (2002), Análisis Estadístico con SPSS para Windows.
Volumen II. Estadística multivariante, Madrid, McGraw-Hill, 2ª edición.

ANEXO 1
Testes de inferência estatística mais utilizados
em
Análise de dados bivariada


ANEXO 2
European Social Survey

(round 1 - 2002)
Questionário adaptado
http://www.europeansocialsurvey.org/





Manual MA Todos Quantitativos Tomo 1 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Manual MA Todos Quantitativos Tomo 1 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

COOPERAÇÃO CE - PALOP

Programa PIR PALOP II

N.º IDENTIFICAÇÃO : REG/7901/013

Manual de Técnicas e Métodos

COMISSÃO EUROPEIA GOVERNO PORTUGUÊS

INA – Instituto Nacional de Administração

Manual de Técnicas e Métodos Quantitativos (Tomo 1)

Mês e Ano de elaboração:

Assistência Técnica e Pedagógica

Lisboa, Junho de 2007

INA – Instituto Nacional de Administração 2

INA – Instituto Nacional de Administração 3

INA – Instituto Nacional de Administração 4

Estruturação dos capítulos

Objectivo(s) específico(s), no qual cada participante conhecerá a proposta

Conteúdo programático, onde se procurará desenvolver, de modo claro,

INA – Instituto Nacional de Administração 5

- O segundo tem como objectivo familiarizar os formandos com o SPSS, permitindo-lhes

- O terceiro tem como objectivo dotar os formandos de competências técnicas e estatísticas

INA – Instituto Nacional de Administração 6

INA – Instituto Nacional de Administração

1.1. Noções de amostragem

Em Estatística1, amostra é o conjunto de elementos extraídos de um conjunto

Principais razões para se trabalhar com uma amostra:

Se a constituição da amostra obedecer a determinadas condições, a análise das características da

Nota: A dimensão da amostra é significativamente inferior à dimensão da população, de forma a

- Amostragem probabilística - procedimento em que todos os elementos da população

INA – Instituto Nacional de Administração 8

1. Definição clara dos O que se pretende saber/conhecer

2. Quem deverá ser População alvo* e população a

4. Como serão Método de selecção da amostra

Unidades que poderiam ser

Conjunto de unidades existentes às

INA – Instituto Nacional de Administração 9

Desenvolvimento de um plano amostral*

Processo amostral Método de recolha

1.2. Métodos amostrais

•Amostragem por conveniência

INA – Instituto Nacional de Administração 10

1.3. Selecção das unidades amostrais

Métodos probabilísticos - amostragem aleatória

Casual Cálculo do rácio K=N/n; selecção aleatória do primeiro elemento

Separação dos elementos da população em estratos e selecção

A população encontra-se dividida em clusters que são

Produto A 180 160 310 200 850

INA – Instituto Nacional de Administração 11

Numa 1ª fase os inquiridos são escolhidos aleatoriamente, sendo,

Amostragem Semelhante ao método multi-fásico. A realização da fase seguinte

Equivalente à amostragem aleatória estratificada. As proporções

1.4. Erro amostral

INA – Instituto Nacional de Administração 12

INA – Instituto Nacional de Administração 13

Determinação nº de elementos em função da margem de erro e da

INA – Instituto Nacional de Administração 14

1) “Depois de se identificar os dados que deverão ser recolhidos e o instrumento (questionário

Diga, sucintamente em que consistem os seguintes métodos de mostragem:

2) “O problema da Inferência Indutiva é, do ponto de vista da Estatística, encarado da seguinte

- Bravo, R. S. (1988), Técnicas de investigación social, 5ª ed.

INA – Instituto Nacional de Administração 15

INA – Instituto Nacional de Administração 16

O pakage estatístico SPSS para Windows é um poderoso sistema de análises

Muda-se de uma para outra clicando no respectivo separador.

Janela Data View: