Você está na página 1de 52

ESTATÍSTICA E ANÁLISE DE DADOS I

DESCRITIVA:
UNIVARIADA E BIVARIADA

Instituto Universitário de Lisboa (ISCTE-IUL)


2020/2021

©ISCTE-Instituto Universitário de Lisboa 1


ÍNDICE
1. Introdução à Estatística e Análise de dados 4
1.1 O objeto da Estatística 4
1.2 A Estatística Descritiva 4
1.3 A Estatística Indutiva (ou Inferencial) 4
2. Análise descritiva univariada 5
2.1 As Etapas do Método Estatístico 5
2.2 Conceitos básicos 6
2.3 Nível de medida/natureza das variáveis e Tipos de variáveis 6
2.4 Representação gráfica dos dados 8
2.4.1 Dados qualitativos nominais 8
2.4.2 Dados qualitativos ordinais e/ou discretos 9
2.4.3 Gráficos para dados contínuos 9
2.4.4 Gráficos para representar medidas descritivas 10
2.4.5 Frequências 12
2.5 Medidas descritivas 13
2.5.1 Medidas de localização 14
2.5.2 Medidas de dispersão 16
1.4.3 Enviesamento (Skewness) 18
1.4.4 Achatamento (Kurtosis) 19
3. Análise descritiva bivariada 21
2.1. Representação gráfica da relação entre duas variáveis 21
Representação gráfica de frequências 21
Representação gráfica de medidas descritivas 31
Representação gráfica de pontos num diagrama de dispersão 33
2.2. Tabelas de frequências e de medidas descritivas 35
Tabelas de contingência ou de dupla entrada (Crosstabs) 36
Tabelas de comparação de medidas descritivas (Custom tables) 38
2.3. Medidas de associação (e correlação) 39
Medidas mais usuais 39
Cálculo das medidas no SPSS Statistics 40
4. Transformação de variáveis e seleção de casos 43
4.1 Construção de novas variáveis/indicadores 43
4.1.1 Compute: 43
4.1.2 Recodificação 46
4.1.3 Recodificação automática 48
4.2 Selecção de casos 49

©ISCTE-Instituto Universitário de Lisboa 2


ÍNDICE DE FIGURAS
Figura 1: Distribuição dos leitores segundo o semanário da sua preferência 8
Figura 2: Distribuições das respostas ao atributo lê-se facilmente 9
Figura 3: Distribuição do número de semanários lidos por mês 9
Figura 4: Distribuição do número de semanários lidos por mês 10
Figura 5: Distribuição do número de semanários lidos por mês 11
Figura 6: Nível médio de concordância sobre alguns atributos do jornal 12
Figura 7: Principais técnicas da análise descritiva bivariada 21
Figura 8: Distribuição do semanário preferido por sexo 23
Figura 9: Distribuição do semanário preferido por sexo 24
Figura 10: Relação entre o semanário preferido e o sexo 25
Figura 11: Distribuição do semanário preferido por sexo 26
Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo 28
Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário preferido 30
Figura 14: Tempo médio de leitura do semanário por semanário preferido 31
Figura 15: Distribuição do tempo de leitura do semanário por semanário preferido 32
Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y) 33
Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura semanal dos
diários 35
Figura 18: Valores de referência para medidas de correlação 39

ÍNDICE DE TABELAS
Tabela 1: Alguns procedimentos de análise descritiva univariada 7
Tabela 2: Distribuição do tempo de leitura do semanário preferido, em minutos 13
Tabela 3: Relação entre o semanário preferido e o sexo 36
Tabela 4: Distribuição do semanário preferido por sexo 38
Tabela 5: Distribuição do tempo de leitura do semanário por semanário preferido 38

©ISCTE-Instituto Universitário de Lisboa 3


“Estatística é a ciência que se ocupa da obtenção da informação (amostragem), seu tratamento inicial
(ordenação, cálculo de características amostrais, agrupamento em classes, representações gráficas – em
suma, estatística descritiva e análise exploratória de dados) com a finalidade de, através de resultados
probabilísticos adequados, inferir de uma amostra para a população. (). Por outras palavras, é um
instrumento de leitura da informação e da sua transformação em Conhecimento.”
(Dinis Pestana e Sílvio Velosa, 2002)

1. Introdução à Estatística e Análise de dados

A Estatística Descritiva é constituída por um conjunto de métodos destinados à organização,


descrição e sintetização da informação através de indicadores estatísticos. Segundo Reis (2009), a
Estatística Descritiva consiste na recolha, apresentação, análise e interpretação dos dados através
da criação de instrumentos adequados: tabelas, gráficos e indicadores.

1.1 O objeto da Estatística

Assim, a Estatística tem como objetivo recolher, analisar e interpretar dados. Os dados
correspondem a um conjunto de informações sobre uma ou mais variáveis para um conjunto de
elementos. A Estatística pode analisar uma variável apenas, mas nunca analisa só um indivíduo
(ou elemento).

Os indicadores estatísticas referem-se a um conjunto de elementos. Por isso, um dos objetivos é


sintetizar essa informação dispersa, em indicadores, que se referem ao conjunto e não a cada um
dos casos. Por exemplo, em vez de se saber qual foi a resposta de cada indivíduo à pergunta”turma
a que pertence”, pretende-se saber qual a % ou o nº de alunos de cada turma, ou em vez da idade
de cada um, pretende-se saber a média das idades, etc.

1.2 A Estatística Descritiva

Corresponde ao conjunto de métodos que pretende descrever e caracterizar uma situação na qual
se conhecem todos os elementos.

1.3 A Estatística Indutiva (ou Inferencial)

Trata da generalização a partir das amostras para as populações. Corresponde a um conjunto de


métodos que permitem generalizar para uma população valores a partir de informações obtidas de
uma amostra representativa.

©ISCTE-Instituto Universitário de Lisboa 4


2. Análise descritiva univariada

Para uma análise univariada, pretende-se estudar o comportamento de uma variável a partir do
resumo dos dados em gráficos, medidas descritivas e/ou tabelas de frequência.

2.1 As Etapas do Método Estatístico

1. Identificação do problema

O problema a estudar tem de ser definido de forma muito concreta. Esta definição dve ser feita de
forma a evitar ambiguidades e vai condicionar todas as etapas seguintes.

Exemplos: estudar os alunos do ensino básico, em Lisboa em 2019-2020; estudar os alunos do


ensino superior privado em 2019-2020.

2. Recolha de dados

Os dados podem ser:

 Dados primários: recolhidos diretamente pelo investigador (inquéritos ou outras fontes)


 Dados secundários: calculados a partir dos dados primários já publicados.

Relativamente à periodicidade, os dados podem ser:

 Contínua, automática, permanente (exemplos: nascimentos, casamentos, etc.)


 Periódica (exemplo: recenseamento da população de 10 em 10 anos, etc.)
 Ocasional (exemplo: inquérito num projeto de investigação)

Os dados podem ainda referir-se

 A todo o conjunto de observações (recenseamento ou outras recolhas estatísticas)


 A uma amostra (sondagem – pretende-se retirar conclusões sobre a população a partir de
uma amostra representativa). Exemplo: uma sondagem eleitoral.

3. Crítica dos dados

O tratamento incial dos dados antes de se proceder a qualquer cálculo deve ser verificado de forma
a detectar problemas/erros.

Exemplos: dados em falta (não respostas/missings), valores impossíveis (ex: idade de 115 anos),
outliers (valores muito invulgares).

4. Apresentação dos resultados

A apresentação dos dados pode ser feita através de

©ISCTE-Instituto Universitário de Lisboa 5


 Tabelas ou Quadros: têm um cabeçalho (como o título e unidades), o corpo do quadro
(constituído por linhas e colunas com os resptivos valores) e o rodapé (onde estão as fontes,
notas)
 Gráficos ou Figuras: podem ser de diversos tipos- linhas, barras, circulares, etc.

5. Análise e interpretação dos resultados

Os resultados apresentados nas tabelas e figuras têm de ser explicados ao leitor e interpretados
en função das questões que levaram à recolha dos dados.

2.2 Conceitos básicos

Elemento (ou unidade de análise): constitui a base de toda a estatística. É a cada um deles que
se refere a informação inicial (valores da variável) e ao seu conjunto que se referem os indicadores,
figuras (médias, %, etc). Os elementos não têm de ser necessariamente pessoas; podem ser
documentos, empresas, países, etc..

População (ou universo): corresponde ao conjunto de todos os elementos que têm pelo menos
uma característica comum. Por exemplo, todos os alunos do ISCTE, todos os portugueses, todas
as cidades europeias, etc.

Amostra: é um subconjunto da população e, sendo assim,não contém todos os elementos. As


amostras devem ser representativas da população.

Variável: é o conceito básico da estatística que se pretende estudar. Cada variável tem um conjunto
de valores/categorias. Estes são os atributos ou características de cada um dos elementos da
população (exemplo: cor de olhos, idade, lóngua, rendimento, etc.).
A variável corresponde à “pergunta” enquanto as categorias ou os valores são as “respostas”.

Exemplos:

 se a pergunta for a idade (a variável), as respostas (categorias1 ou valores) são 25, 35, 45,
etc.
 Se a pergunta são as habilitações, as respostas podem ser 9ª ano, 12ª ano, etc.

2.3 Nível de medida/natureza das variáveis e Tipos de variáveis

Existem vários tipos de variáveis de acordo com as escalas de medida utilizadas para os medir. É
necessário identificarmos a natureza das variáveis de que dispomos para trabalhar e, deste modo,
escolher as análises adequadas.

As variáveis podem ser:

1
Numa variável, as suas categorias são mutuamente exclusivas.
©ISCTE-Instituto Universitário de Lisboa 6
Qualitativas – se registam qualidades, i.e., se não estão expressas em números, ou estando, não
as quantificam:
 Qualitativas nominais se as qualidades são registadas sem ordem, i. e., são meras
categorias: género, cor dos olhos, etc.
 Qualitativas ordinais se as qualidades são registadas com ordem: habilitações
académicas, escalões etários, etc. Mas as qualidades também podem ser expressas numa
escala ordinal (exemplo: Qual o seu grau de satisfação com o estado atual da economia
portuguesa?). Estas variáveis podem ter tratamento quantitativo porque são definidas em
intervalos a distâncias constante entre 1 e 7.
Extremamente Recusa Não sabe
insatisfeito(a) responder (NS)
1 2 3 4 5 6 7 77 88

Quantitativas/Métricas – registam quantidades: altura, idade, nº de filhos por agregado familiar,


etc., e por isso, são números (tratados como tal e não como códigos). Podemos distinguir entre as:
 Variáveis quantitativas discretas – se o número de valores que a variável pode assumir
for finito ou infinito numerável (assume sempre valores inteiros, mesmo que não seja
possível definir-se um máximo)
 Variáveis quantitativas contínuas – se o número de valores que a variável pode assumir
for infinito não numerável (quando não se pode contá-los porque entre dois valores existe
sempre um terceiro).
Como decidir entre observações de variáveis discretas e de variáveis contínuas? São contagens?
São medições? Algumas observações de variáveis de natureza discretas são tratadas como dados
contínuos e o inverso também pode acontecer.

Tabela 1: Alguns procedimentos de análise descritiva univariada


TIPO SUBTIPO REPRESENTAÇÃO MEDIDAS DESCRITIVAS
Tabelas de frequências 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 𝑐𝑒𝑛𝑡𝑟𝑎𝑙:
Localização:
{𝑀𝑜𝑑𝑎
(sem % acumuladas)
⎧Nominais

⎪ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 𝑐𝑒𝑛𝑡𝑟𝑎𝑙:
Qualitativas Gráficos circulares ou de barras ⎧ Moda

⎪ Mediana
⎨ Tabelas de frequências
⎪ Localização: 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 𝑛ã𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑙:
⎪ 𝑂𝑟𝑑𝑖𝑛𝑎𝑖𝑠 (com intervalos descontínuos) ⎨
⎩ Quantis

⎪ Mínimo
Gráfico de barras ou 𝑏𝑜𝑥𝑝𝑙𝑜𝑡 𝑠 ⎩ Máximo
⎧ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 Moda
⎪ 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 Mediana
Tabelas de frequências Média, Média aparada
𝑳𝒐𝒄𝒂𝒍𝒊𝒛𝒂çã𝒐
Discretas ⎨ Quantis
⎧ Gráficos de barras, 𝑏𝑜𝑥𝑝𝑙𝑜𝑡𝑠 ⎪ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 Mínimo
⎪ ⎩𝑛ã𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 Máximo

Quantitativas Intervalo de variação
⎨ Intervalo interquartílico
⎪ 𝑇𝑎𝑏𝑒𝑙𝑎𝑠 𝑑𝑒 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎𝑠 Dispersão
Desvio padrão
⎪Contínuas (com intervalos contínuos) Coeficiente de variação
⎩ Histograma
𝐵𝑜𝑥𝑝𝑙𝑜𝑡 Assimetria{ 𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
Achatamento {𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
Notas: (1) As variáveis qualitativas ordinais em escala ordinal tipo likert podem ter tratamento quantitativo; (2) As variáveis
dicotómicas têm tratamento qualitativo nominal.

©ISCTE-Instituto Universitário de Lisboa 7


BASE DE DADOS:
Variáveis

INDIVÍDUO IDADE SEXO ESTADO CIVIL RESIDÊNCIA

Elementos
A 35 F Casado Lisboa
B 43 F Divorciado Sintra
C 19 M Solteiro Cascais
D 67 M Viúvo Almada

2.4 Representação gráfica2 dos dados

Para apresentar as frequências, em geral as percentagens, os gráficos adequados são:

 Dados de variáveis qualitativas nominais são melhor representados por gráficos circulares
(pie) em que a soma das partes é 100%.
 Dados de variáveis qualitativas ordinais ou de quantitativas discretas são melhor
representados por gráficos de barras.
 Dados de variáveis quantitativas contínuas são melhor representados por histogramas.
 As medidas descritivas podem também ser apresentadas graficamente. É o caso de perfis
de médias ou de medianas (gráficos de linhas), diagrama de extremos e quartis, etc.

2.4.1 Dados qualitativos nominais

Versão a) Versão b)

Figura 1: Distribuição dos leitores segundo o semanário da sua preferência

2
Os gráficos devem ter títulos, indicando-se claramente qual a caraterística/variável em estudo.

©ISCTE-Instituto Universitário de Lisboa 8


2.4.2 Dados qualitativos ordinais e/ou discretos

Versão a) Versão b)
Figura 2: Distribuições das respostas ao atributo lê-se facilmente

Figura 3: Distribuição do número de semanários lidos por mês

2.4.3 Gráficos para dados contínuos

Para dados contínuos, o histograma é adequado para representar as frequências por classes.
Quantos intervalos (classes) se devem considerar?
 Regra para o cálculo do número de classes (k):
 𝐾 = 5 para 𝑛 < 25 𝐾 ≈ √𝑛 para 𝑛 ≥ 25
 Classes definidas por conveniência, por exemplo, de acordo com outros estudos, ou de
acordo com os dados agregados disponíveis de estatísticas oficiais
 Usar o BOM SENSO!

©ISCTE-Instituto Universitário de Lisboa 9


Figura 4: Distribuição do número de semanários lidos por mês

Quando se pretender definir classes de diferentes amplitudes, o histograma deixa de ser adequado.
Neste caso, recodifica-se a variável original em escalões, passando a ser tratada como qualitativa
ordinal.

2.4.4 Gráficos para representar medidas descritivas

2.4.4.1 Diagramas de extremos e quartis (“Caixas-de-bigodes”)

É construído com base nos quartis, no mínimo e no máximo.

Este gráfico, tal como está, não deve constar de um relatório uma vez que estão identificados os
casos (id) que são outliers (32 e 68).

©ISCTE-Instituto Universitário de Lisboa 10


Outliers
Máximo = 15

Q3=9 Intervalo de
variação
Intervalo
interquartílico
Q1= 5

Mínimo = 2

Figura 5: Distribuição do número de semanários lidos por mês

Este gráfico é muito útil em análise de dados uma vez que contempla muita informação, incluindo
a identificação de outliers. Outliers3 são valores anómalos e, por isso mesmo, afastam-se do padrão
considerado (entre Q3 e Q1), sendo classificados em moderados e severos:

 Outlier moderado – há dois outliers sobrepostos, que não se distinguem no respetivo


gráfico, e que estão identificados por um círculo (os casos 32 e 68):
𝑄 + 1,5 × (𝑄 − 𝑄 ) < 𝑋 ≤ 𝑄 + 3 × (𝑄 − 𝑄 )
ou
𝑄 − 3 × (𝑄 − 𝑄 ) ≤ 𝑋 < 𝑄 − 1,5 × (𝑄 − 𝑄 )

 Outlier severo - identificado no gráfico por um asterisco:


𝑋 > 𝑄 + 3 × (𝑄 − 𝑄 ) ou 𝑋 < 𝑄 − 3 × (𝑄 − 𝑄 )

O fim dos “bigodes” não coincide necessariamente com o mínimo e máximo se existirem outliers.

OUTPUT:_____________________________________________________________________
Extreme Values
Case Number Value
Número de Highest 1 32 16
semanários 2 68 16
lidos por 3 33 15
mês
4 34 15
5 69 14a
Lowest 1 52 2
2 14 2
3 90 3
4 89 3
5 67 3b
a. Only a partial list of cases with the value 14 are shown in the table
of upper extremes.
b. Only a partial list of cases with the value 3 are shown in the table
of lower extremes.

3
Há autores que definem os outliers como desvios face à média de um, ... , desvios padrão. Por exemplo: 𝑋 ± 3 𝑠′.
©ISCTE-Instituto Universitário de Lisboa 11
Note-se que no output estão identificados alguns dos valores extremos e os outliers sobrepostos.
Os casos 32 e 68 são outliers.

Vantagem - Temos uma ideia da localização dos valores observados, da sua dispersão, e do grau
de assimetria da distribuição. No exemplo dado, a distribuição do Número de semanários lidos por
mês é assimétrica; e, como a mediana está mais próxima do Q1, caraterizamos esta distribuição
como assimétrica positiva.

2.4.4.2 Gráfico de linhas

O gráfico de linhas é adequado quando se pretende descrever em simultâneo mais de uma variável
medidas nas mesmas unidades. Podem ser utilizados para representar uma medida de tendência
central (media ou mediana). Por exemplo, se as variáveis forem qualitativas ordinais medidas
numa escala tipo Likert e, portanto, passíveis de serem tratadas como quantitativas, pode usar-se
este tipo de gráfico.

Figura 6: Nível médio de concordância sobre alguns atributos do jornal

2.4.5 Frequências

Os valores que uma variável pode assumir podem ser representados em frequências:

 Frequência absoluta (𝐹 ) – é o número de vezes que cada modalidade/categoria ou valor


da variável se repete.
 Frequência relativa (𝑓 ) – é o número de vezes que a modalidade/categoria ou valor da
variável ocorre relativamente ao total (= proporção) em que 𝑓 = ou 𝑓 =

©ISCTE-Instituto Universitário de Lisboa 12


 Frequência absoluta/relativa acumulada 𝑓 , – corresponde à soma do número de
ocorrências ou da proporção de elementos observados para as modalidades da variável
inferiores ou iguais à modalidade em causa.

Quando a variável é qualitativa nominal, não se calculam as frequências acumuladas por estas
pressuporem uma ordenação dos valores da variável. Note-se ainda que as frequências relativas
usualmente são apresentadas em percentagens.

Tabela 2: Distribuição do tempo de leitura do semanário preferido, em minutos


Tempo %
Ocorrências %
(min) acumulada
30 9 9,1 9,1
45 12 12,1 21,2
50 4 4,0 25,3
60 19 19,2 44,4
75 8 8,1 52,5
90 12 12,1 64,6
105 6 6,1 70,7
120 11 11,1 81,8
135 2 2,0 83,8
150 6 6,1 89,9
165 2 2,0 91,9
180 6 6,1 98,0
195 2 2,0 100,0
Total 99 100,0

2.5 Medidas descritivas

As medidas descritivas (ou de síntese) resumem os valores da variável (dos dados) num só valor e
estão classificadas em diversos tipos: i) localização de tendência central; ii) localização de
tendência não central; iii) dispersão e concentração; iv) assimetria; e v) achatamento. No entanto,
para descrever corretamente o comportamento duma variável são necessárias sempre mais do que
uma medida, sendo fundamental apresentar, pelo menos, uma de localização de tendência central
e uma de dispersão.
No SPSS Statistics existem vários comandos que permitem calcular as principais medidas
descritivas. Por exemplo:
Analyze  Descriptive statistics  Frequencies

©ISCTE-Instituto Universitário de Lisboa 13


2.5.1 Medidas de localização

2.5.1.1 Tendência central: média, média aparada, mediana e moda

1) Variáveis qualitativas nominais  MODA (o valor que mais vezes foi observado)
MODA: pode ser calculada qualquer que seja o tipo de variável. A moda representa a modalidade
da variável que ocorre mais vezes.

2) Variáveis qualitativas ordinais  MODA e a MEDIANA (é o valor da variável que acumula


até si 50% das observações)

MEDIANA: pode ser também calculada para variáveis quantitativas. É a medida de localização
preferida para distribuições fortemente assimétricas. Para ser calculada, os valores da variável
têm de ser ordenados.

Exemplo simplificado da base de dados:

𝑋 𝐹 % % ac
1 2 9,09 9,09
2 2 9,09 18,18
3 3 13,64 31,82
4 4 18,18 50,00
5 4 18,18 68,18
6 3 13,64 81,82
7 2 9,09 90,91
8 2 9,09 100,00
n 22

OUTPUT: ___________________________________________________________________________

Apesar da mediana ser indeterminada,


assume-se que é igual a:
Dados ordenados: (𝑘 = 22  par)

1,1,2,2,3,3,3,4,4,4,4,5,5,5,5,6,6,6,7,7,8,8

𝑀 = = 4,5 jornais lidos por semana

Interpretação: metade dos leitores leem, no máximo, 4,5 diários por semana.

3) Variáveis quantitativas discretas  MODA, MEDIANA, MÉDIA E MÉDIA APARADA


(corresponde ao valor que a variável teria se todas as
observações fossem iguais).

MÉDIA: 𝑋 = ∑ 𝑥 : pode ser um valor não assumido pela variável (contrariamente à


Moda) e tem como desvantagem ser fortemente influenciada por valores extremos e outliers da
distribuição.

OUTPUT:__________________________________________________________________

©ISCTE-Instituto Universitário de Lisboa 14


Interpretação: se todos os leitores lessem semanalmente o mesmo número de diários, esse valor seria
de 4,5.

MÉDIA APARADA: excluindo os 5% dos valores ordenados mais baixos da variável e os 5% dos
valores mais elevados, calcula-se a média dos valores que correspondem a 90% das observações
centrais. É uma medida útil quando existem outliers uma vez que podem ser eliminados neste
processo.

2.5.1.2 Tendência não central: quartis, decis, percentis, mínimo e máximo

Quartis: dividem a distribuição de frequências em 4 partes iguais

 Q1 – é o valor da variável que acumula até si 25% das observações


 Q2  Mediana
 Q3 – corresponde ao valor da variável que acumula até si 75% das observações

Percentis: dividem a distribuição de frequências em 100 partes iguais. Por exemplo, P80 acumula
até si 80% das observações, etc.

Há vários critérios para calcular os percentis. No SPSS Statistics:


Analyze  Descriptive statistics  Explore

OUTPUT:___________________________________________________________________

©ISCTE-Instituto Universitário de Lisboa 15


Descriptives
Statistic Std. Error
Tempo de leitura do Mean 88,70 4,512
semanário (minutos) 5% Trimmed Mean 86,56
Median 75,00
Variance 2035,667
Std. Deviation 45,118
Minimum 30
Maximum 195
Range 165
Interquartile Range 67,50 120 − 52,5
Skewness ,708 ,241
Kurtosis -,455 ,478

Percentiles
Percentiles
5 10 25 50 75 90 95
Weighted Tempo de leitura do
30,00 45,00 52,50 75,00 120,00 163,50 180,00
Average(Definition 1) semanário (minutos)
Tukey's Hinges Tempo de leitura do
55,00 75,00 120,00
semanário (minutos)

Analyze, Custom Tables, Custom Tables

Percentile 25 Median Percentile 75


Tempo de leitura do
55 75 120
semanário (minutos)

Como se pode ver, dependendo do critério utilizado (do comando usado no SPSS Statistics),
assim os valores dos percentis podem ser diferentes. Se utilizarmos o critério da Média
ponderada, o P25 = 52,5 min; se for utilizado o critério de Tukey, esse valor passa a ser igual a
55 min! Se acedermos a estas medidas via Explore, é utilizado o critério da Média ponderada,
mas, se acedermos a Custom Tables, já é utilizado o critério de Tukey.

Interpretação: Q3= 120 min, i. e., 75% dos leitores inquiridos demoram, no máximo, 120 minutos
a ler o semanário preferido. De outra forma, 25% dos leitores demoram, no mínimo,
120 minutos a ler o semanário preferido.

2.5.2 Medidas de dispersão

As medidas de dispersão permitem-nos ter uma ideia da variabilidade dos valores da variável.

2.5.2.1 Medidas absolutas

Das medidas de dispersão absolutas, destacam-se as seguintes:

∑ ( ) ∑ ( ) ∑ ( )
1. Variância4 ; ;

4∑ (𝑋 − 𝑋) corresponde à variação total relativamente à média (𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 = 𝑇𝑆𝑆) e dividida pelo
número de observações (ou 𝑛 − 1) corresponde à variância que mais não é do que variação média.

©ISCTE-Instituto Universitário de Lisboa 16


É uma medida de dispersão que avalia o quadrado dos afastamentos em relação à média das
observações. É expressa no quadrado das unidades da variável, o que a torna mais difícil de
interpretar;
2. Desvio-padrão +√𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
Sendo a raiz quadrada positiva da variância é expressa nas mesmas unidades que a variável em
estudo. Significa que a média dos desvios em relação à média.
3. Intervalo de variação (𝑉𝑎𝑙𝑜𝑟 á − 𝑉𝑎𝑙𝑜𝑟 í )

Corresponde à amplitude definida pelo valor resultante da diferença entre o valor máximo e o
valor mínimo;

4. Intervalo interquartílico (𝑄 − 𝑄 )
Corresponde à “caixa” da caixa-de-bigodes e indica-nos onde se encontram os 50% de
observações “centrais”.

A variância e o desvio-padrão só podem ser calculados para variáveis quantitativas porque medem
o afastamento em relação à média.

1.4.2.2 Medidas relativas

Das medidas de dispersão relativas, destaque-se o coeficiente de variação.

Coeficiente de variação × 100; × 100;

Permite avaliar a dispersão de uma distribuição, ou comparar a dispersão entre duas ou mais
distribuições, e permite ainda medir a representatividade da média. É usual aceitar-se que, se este
coeficiente for superior a 50%, a média deixa de ser representativa. Neste caso, deve-se preferir-
se a mediana ou a média aparada.

OUTPUT: ____________________________________________________________________

Interpretações:.
(1) os desvios dos valores do tempo de leitura do semanário preferido em relação à respetiva média (88,38
minutos) são, em média de 45, 237 minutos.

©ISCTE-Instituto Universitário de Lisboa 17


(2) A diferença entre a duração do tempo de leitura mais elevada e a mais baixa é de 165 minutos.
(3) A amplitude registada entre os tempos de leitura no grupo de respostas central (75%-25%) é
de 70 minutos, isto é, excluindo os 25% dos leitores com tempos de leitura mais baixos e os
25% com tempos mais altos, a variação máxima dos tempos de leitura dos restantes leitores
(50%) é de 70 minutos.
,
(4) 𝐶𝑣 = ,
× 100 ≈ 51,18%  o peso do desvio padrão em relação à média é de 51,18%, o
que mostra ser uma dispersão moderadamente dispersa.

1.4.3 Enviesamento (Skewness)

A comparação das medidas de tendência central permite-nos avaliar o enviesamento dos dados.
Em distribuições unimodais:

a) Distribuição simétrica b) Assimétrica positiva c) Assimétrica negativa


𝑀é𝑑𝑖𝑎 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 𝑀é𝑑𝑖𝑎 > 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 𝑀é𝑑𝑖𝑎 < 𝑀𝑒𝑑𝑖𝑎𝑛𝑎

No SPSS Statistics, o coeficiente de assimetria (𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠) é calculado de acordo com a


seguinte fórmula:

∑ ( ) ∑ ( )
𝑺𝒌𝒆𝒘𝒏𝒆𝒔𝒔 = ( )( )
𝑆′ com 𝑀 = e 𝑆′ =

Skewness = 0  distribuição simétrica


Skewness > 0  distribuição assimétrica positiva (aba direita mais longa)
Skewness < 0  distribuição assimétrica negativa (aba esquerda mais longa)

Assimétrica positiva
Assimétrica negativa
Simétrica

OUTPUT: ___________________________________________________________________________

©ISCTE-Instituto Universitário de Lisboa 18


Interpretação: a distribuição do tempo de leitura do semanário preferido (minutos) é assimétrica
positiva na amostra (+ 0,728).

1.4.4 Achatamento (Kurtosis)

No SPSS Statistics, o coeficiente de achatamento ou de curtose (Kurtosis) é calculado de acordo


com a seguinte fórmula:
𝑛 (𝑛 + 1)𝑀 (𝑛 − 1)
𝑲𝒖𝒓𝒕𝒐𝒔𝒊𝒔 = −3
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑆′ (𝑛 − 2)(𝑛 − 3)
𝟒
𝟒 ∑𝒏
𝒊 𝟏(𝑿𝒊 𝑿)
𝟒
𝟒 ∑𝒏
𝒊 𝟏(𝑿𝒊 𝑿)
𝟐
com 𝑴 = e 𝑺′ =
𝒏 𝒏 𝟏

Kurtosis = 0  distribuição mesocúrtica


Kurtosis > 0  distribuição leptocúrtica (menos achatada que a gaussiana)
Kurtosis < 0  distribuição platicúrtica (mais achatada que a gaussiana)

OUTPUT: ___________________________________________________________________________

©ISCTE-Instituto Universitário de Lisboa 19


Interpretação: a distribuição do Tempo de leitura do semanário preferido (min) é platicúrtica
na amostra (- 0,437).

©ISCTE-Instituto Universitário de Lisboa 20


3. Análise descritiva bivariada

Numa análise descritiva bivariada pretende-se descrever a relação entre duas características, isto
é, perceber de que forma a distribuição de uma delas se comporta perante a alteração na
distribuição da outra. O objectivo é fazer análises comparativas entre diversos grupos; comoas
dimensões dos grupos podem não ter a mesma dimensão, é necessário utilizar uma unidade de
comparação que é a percentagem. Importa também referir que as relações entre variáveis, que se
pretendem aqui identificar, estabelecem ou não relações de dependência. As relações de
dependência, em que há uma variável que é explicada pela outra (relação causa-efeito), são
definidas pelas teorias.

Tal como na análise descritiva univariada, as técnicas a utilizar dependem da natureza das variáveis
em estudo, havendo sempre a possibilidade de se recorrer a gráficos, tabelas e a medidas de
associação (entre as quais se encontram as de correlação). A Figura 7 mostra as diferentes técnicas
possíveis de serem utilizadas numa análise descritiva bivariada.

Figura 7: Principais técnicas da análise descritiva bivariada

2.1. Representação gráfica da relação entre duas variáveis

Representação gráfica de frequências

Circular em painel

Se o gráfico circular é adequado para representar graficamente uma variável qualitativa nominal,
continua a ser adequado para representar graficamente duas variáveis qualitativas nominais.

No SPSS Statistics:

©ISCTE-Instituto Universitário de Lisboa 21


Chart editor, Elements, Show
Data Labels

©ISCTE-Instituto Universitário de Lisboa 22


Após algumas formatações, e de acordo com o que já foi referido no estudo da análise descritiva
univariada, uma possível solução é apresentada na Figura 8.

Figura 8: Distribuição do semanário preferido por sexo

Interpretação: a percentagem de leitores que preferem os semanários Expresso e Regional é superior no


grupo dos leitores do sexo masculino, quando comparada com o grupo do sexo feminino
(54,5% e 30,3% vs 41,2% e 14,7%, respetivamente); contudo, a percentagem de leitoras do
semanário Sol (44,1%) é superior à percentagem correspondente no grupo masculino
(15,2%). Deste modo denota-se uma relação entre o semanário preferido e o sexo do leitor.

Barras empilhadas a 100% (100% Stacked)

O gráfico de barras empilhadas a 100% é um gráfico adequado a duas variáveis qualitativas quando
se pretende ver se há alguma relação entre elas. No SPSS Statistics:

©ISCTE-Instituto Universitário de Lisboa 23


A Figura 9 mostra, após algumas formatações, uma solução possível.

Figura 9: Distribuição do semanário preferido por sexo

Interpretação: a percentagem de leitores que preferem o Expresso é maioritária no grupo dos leitores do
sexo masculino (54,5%), quando comparada com o grupo do sexo feminino (41,2%). Em
contraste, a % de leitores que preferem o Sol é bastante mais relevante no grupo de leitores
do sexo feminino (44,1%), já que apenas 15,2% dos leitores do sexo masculino preferem
este semanário. Deste modo, identificam-se algumas diferenças nas preferências entre os
dois sexos: enquanto que no grupo de leitores do sexo masculino há uma preferência clara
pelo Expresso, já no grupo das leitoras, essa preferência, já não sendo tão clara, vai para o
Sol, seguido de perto pelo Expresso (41,2%). Assim, conclui-se haver uma relação entre
estas características.

Barras agrupados (Clustered)

O gráfico de barras agrupadas decorre da representação gráfica das percentagens que resultam do
cruzamento de duas variáveis e, usualmente, apresentadas numa tabela de contingência
(Crosstabs). Contudo, quando se pretende identificar relações entre as variáveis, deve pedir-se as
percentagens segundo uma das variáveis e não sobre o total.

Sempre que o registo de uma categoria (ou barra de uma cor) dominante num grupo corresponder
a um registo minoritário da categoria (barra da mesma cor) no outro grupo (ou num outro grupo),
diz-se que as variáveis estão relacionadas  a uma inversão dos pesos de uma categoria em cada
um dos grupos da outra variável.

Analisam-se dois casos, um com a percentagem do total, outro com a percentagem segundo o sexo.

©ISCTE-Instituto Universitário de Lisboa 24


CASO 1: percentagem do total

Figura 10: Relação entre o semanário preferido e o sexo

Interpretação: a Figura 10 evidencia que o grupo de leitores mais expressivo corresponde aos leitores do
sexo masculino e que preferem o Expresso (36%), sendo o menos expressivo, com uma
percentagem de apenas 5%, o grupo de leitores do sexo feminino e que preferem o
Regional.

CASO 2: percentagem segundo uma das variáveis


É um gráfico que fornece informação idêntica ao gráfico de barras empilhadas a 100% e que
permite, por isso mesmo, identificar potenciais associações entre variáveis. No SPSS Statistics:

©ISCTE-Instituto Universitário de Lisboa 25


Após algumas formatações obtém-se:

Figura 11: Distribuição do semanário preferido por sexo

Interpretação: a mesma retirada para o gráfico de barras empilhadas a 100%..

Histograma

No SPSS Statistics só se conseguem fazer histogramas com classes de igual amplitude e, em alguns
casos, apresentar as frequências absolutas (contagens de leitores), situações estas que restringem
a utilidade destes gráficos para caracterizar a relação entre duas variáveis, uma quantitativa
contínua e outra qualitativa. Apresentam-se dois casos.

CASO 1: histograma estilo pirâmide


No SPSS Statistics recorre-se a: Chart Builder, Histogram

©ISCTE-Instituto Universitário de Lisboa 26


Alterar a escala do eixo 𝑌𝑌’ dos
dois lados

©ISCTE-Instituto Universitário de Lisboa 27


Chart Editor, Show Data Labels

Selecionando-se as barras, obtenha-se o nº de leitores em


cada uma das barras selecionado-se Show data labels

Após algumas formatações, diferentes das apresentadas nas caixas de diálogo anteriores, obtém-
-se a Figura 12.

Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo

©ISCTE-Instituto Universitário de Lisboa 28


Interpretação: os tempos de leitura do semanário preferido são superiores no grupo dos leitores do sexo
masculino por não haver registos de leitores do sexo feminino a despender tempos de leitura
nos intervalos 160 - 180 minutos; por outro lado, as barras associadas ao tempo de leitura
do semanário preferido no grupo dos leitores do sexo masculino, “mancha verde”, é sempre
superior às barras no outro grupo, “mancha azul”, por haver mais registos de leitores nesse
grupo; por exemplo, há 22 leitores do sexo masculino que demoram a ler mensalmente
entre 40 – 60 minutos contra 13 leitoras. Mas, há mais leitores (66) do que leitoras (34).

CASO 2: histograma em painel


PAINEL EM LINHA: no SPSS Statistics

Show Distribution Curve

©ISCTE-Instituto Universitário de Lisboa 29


PAINEL EM COLUNA:

Um possível resultado, após algumas formatações, é:

Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário
preferido

©ISCTE-Instituto Universitário de Lisboa 30


Representação gráfica de medidas descritivas

Se o objetivo for representar graficamente diferentes medidas descritivas de uma variável


quantitativa (ou de uma qualitativa ordinal) nos diferentes grupos definidos por uma variável
qualitativa, o gráfico de linhas (line) e o diagrama de extremos e quartis (boxplot) são os gráficos
mais adequados.

Gráfico de linhas (Perfil de médias ou de medianas)

O gráfico de linhas é adequado para representar graficamente a média ou a mediana da variável


quantitativa nos diferentes grupos definidos pela variável qualitativa. No SPSS Statistics,

Após algumas formatações obtém-se:

Figura 14: Tempo médio de leitura do semanário por semanário preferido

©ISCTE-Instituto Universitário de Lisboa 31


Interpretação: o tempo médio de leitura do semanário preferido é claramente superior no semanário
Expresso (118,2 minutos) quando comparado com os outros dois semanários, Sol e
Regional, em que os tempos médios de leitura são muito próximos e quase metade do tempo
de leitura do Expresso, respetivamente, de 57 e 61,4 minutos. Assim, conclui-se que possa
existir uma relação entre o semanário preferido e o tempo de leitura, relação esta que é
marcada por grandes diferenças nos tempos de leitura entre o Expresso e os outros dois
jornais.

2.1.2.1. Diagrama de extremos e quartis (Boxplot):

O boxplot é adequado para representar os quartis, o mínimo e o máximo (e os intervalos de


variação e interquartílico) e os outliers (moderados e severos), quando estes existirem.

No SPSS Statistics:

Após algumas formatações, a Figura 15 apresenta uma possível solução.

Figura 15: Distribuição do tempo de leitura


do semanário por semanário preferido

©ISCTE-Instituto Universitário de Lisboa 32


Interpretação: apesar de se registar o mesmo valor mínimo (30 minutos) para o tempo de leitura dos leitores
que preferem qualquer um dos três semanários, os tempos de leitura do Expresso para os
quartis e valor máximo são sempre superiores aos dos outros semanários. Comparando-se os
tempos de leitura registados para o Regional e o Sol, pode-se adiantar que, se 25% dos
respondentes demoram, no máximo, cerca de 45 minutos a ler o Regional ou o Sol (o 𝑄1 =
45 minutos é igual em ambos os semanários), já metade dos leitores que preferem o
Regional, levam, no máximo, 60 minutos a lê-lo, correspondem a 75% dos leitores que
preferem o Sol para o mesmo tempo de leitura (ou seja, 𝑄 ; ≡𝑄 ; ). Concluindo,
é visível que os tempos de leitura para o Expresso se afastam dos tempos de leitura registados
para os outros dois semanários (são sempre superiores), esperando-se por isso haver relação
entre estas duas características, embora não muito forte.

Representação gráfica de pontos num diagrama de dispersão

O gráfico de dispersão (Scatter Dot) é adequado para representar relações, em particular relações
lineares, entre duas variáveis quantitativas. Se existir uma forte relação linear (positiva ou
negativa) entre as variáveis, os pares de valores posicionam-se bastante próximos de uma reta
traçada à mão (ou de uma reta ajustada); se, pelo contrário se afastam dessa reta, visualiza-se que
a relação linear entra as variáveis é fraca ou mesmo inexistente. A Figura 16 apresenta diferentes
tipos de relação e uma situação em que não existe qualquer relação linear ou não linear (c).

(a) Relação linear positiva e (b) Relação linear negativa e (c) Ausência de relação (d) Relação, mas não linear
forte moderada
Fonte: Doane e Seward (2008: 491)

Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y)

No SPSS Statistics5:

5
A partir do tempo de leitura do semanário preferido por mês constrói-se uma variável para representar o tempo de
leitura do semanário preferido por semana. Para o efeito recorre-se no SPSS Statistics ao comando Transform,
Compute variable e insere-se a expressão que permite dividir o tempo mensal por quatro semanas (Tempo de leitura
do semanário preferido por mês/4).
©ISCTE-Instituto Universitário de Lisboa 33
Escala 𝑋𝑋’ Escala 𝑌𝑌’

Chart Editor, Options, Bin Element

©ISCTE-Instituto Universitário de Lisboa 34


Chart Editor, Elements, Fit Line at Total

Após algumas formatações, a Figura 17 apresenta a relação linear positiva entre as duas
características.

Reta ajustada

Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura
semanal dos diários

Interpretação: a relação linear entre os tempos de leitura dos dois tipos de jornais (quanto à periodicidade)
evidencia ser forte e positiva, uma vez que os círculos correspondentes aos pares de valores
estão bastante próximos da reta traçada que apresenta declive positivo, ou seja., ambas as
variáveis variam no mesmo sentido: quando o tempo de leitura dos diários cresce, o tempo
de leitura dos semanários também cresce e de forma muito clara.

2.2. Tabelas de frequências e de medidas descritivas

As tabelas estatísticas apresentam maior precisão nos resultados relativos às variáveis em estudo.
Se as variáveis forem qualitativas, as tabelas adequadas são as tabelas de contingência (Crosstabs);
se uma delas for quantitativa e a outra qualitativa, a tabela de (comparação de) medidas descritivas
(via Tables, Custom Tables ou via Explore) é a tabela adequada. No caso de duas variáveis

©ISCTE-Instituto Universitário de Lisboa 35


quantitativas, não se justifica a realização de uma tabela, dada a sua dimensão e a muito reduzida
interpretação que permite.

Tabelas de contingência ou de dupla entrada (Crosstabs)

São adequadas a variáveis qualitativas, devendo-se privilegiar as percentagens em linha e/ou


coluna, quando o objetivo seja descrever a relação entre as duas características em estudo. No
SPSS Statistics podem ser obtidas, por exemplo.

Analyze  Descriptive Statistics  Crosstabs

Tabela 3: Relação entre o semanário preferido e o sexo


sexo
feminino masculino Total
Semanário Expresso Count 14 36 50
preferido % within Semanario preferido 28,0% 72,0% 100,0%
% within sexo 41,2% 54,5% 50,0%
% of Total 14,0% 36,0% 50,0%
Regional Count 5 20 25
% within Semanario preferido 20,0% 80,0% 100,0%
% within sexo 14,7% 30,3% 25,0%
% of Total 5,0% 20,0% 25,0%
Sol Count 15 10 25
% within Semanario preferido 60,0% 40,0% 100,0%
% within sexo 44,1% 15,2% 25,0%
% of Total 15,0% 10,0% 25,0%
Total Count 34 66 100
% within Semanario preferido 34,0% 66,0% 100,0%
% within sexo 100,0% 100,0% 100,0%
% of Total 34,0% 66,0% 100,0%

Interpretação de diferentes valores presentas na tabela:


 Registam-se 36 leitores ( 36%) que preferem o semanário Expresso e que são do sexo
masculino;
 Dos leitores que preferem o Expresso, 72% são do sexo masculino;
 Dos leitores do sexo masculino, 54,5% preferem o Expresso como semanário preferido;
 50% dos leitores preferem o semanário Expresso;
 66% dos leitores são do sexo masculino;
 14% dos leitores são do sexo feminino e preferem o semanário expresso;

©ISCTE-Instituto Universitário de Lisboa 36


 50 leitores preferem o semanário expresso;
 34 leitores são do sexo feminino;
 100 leitores responderam a ambas as questões, isto é, ao sexo e ao semanário preferido
(neste caso corresponde ao total de indivíduos alvo do estudo);
 (...).

Interpretação: identifica-se uma potencial relação entre o semanário preferido e o sexo uma vez que dos
66 leitores que são do sexo masculino, 36 preferem o Expresso (54,5%), enquanto que, dos
34 leitores do sexo feminino, 44,1% (𝑛 = 5) preferem o Sol e 41,2% (𝑛 = 14) preferem o
Expresso. De outra forma, verificam-se algumas alterações nas preferências do semanário
quando se passa da análise dos leitores para a análise das leitoras.

Mas podem também ser obtidas com o comando Analyze  Tables  Custom Tables:

Após algumas formatações, a tabela pode apresentar o seguinte aspeto:

©ISCTE-Instituto Universitário de Lisboa 37


Tabela 4: Distribuição do semanário preferido por sexo
Sexo
Feminino Masculino
Leitores % Leitores %
Semanario Expresso 12 37,5% 28 48,3%
preferido Regional 5 15,6% 20 34,5%
Sol 15 46,9% 10 17,2%
Total 32 100,0% 58 100,0%

Tabelas de comparação de medidas descritivas (Custom tables)

São mais adequadas para caracterizar a relação entre uma variável quantitativa e uma qualitativa,
em que se calculam as medidas descritivas para a quantitativa em cada grupo definido pela
qualitativa. No SPSS Statistics:

Analyze Tables  Custom tables

Após algumas formatações obtém a Tabela 5.

Tabela 5: Distribuição do tempo de leitura do semanário por semanário preferido


Tempo de leitura Semanário preferido
(em minutos) Expresso Regional Sol Total
Média 118,20 61,40 57,00 88,70
Desvio padrão 43,56 22,62 19,36 45,12
Leitores 50 25 25 100

Interpretação: a média do tempo de leitura do semanário Expresso é maior (118,2 minutos) do que as
médias dos tempos de leitura dos outros dois semanários (Regional = 61,4 minutos e Sol =
57 minutos); os desvios padrão, quando comparados com as respetivas médias, são menos

©ISCTE-Instituto Universitário de Lisboa 38


de metade em todos estes semanários, o que leva a concluir-se que a dispersão do tempo
de leitura dos semanários preferidos, Expresso, Regional e Sol, em torno da sua média, é
fraca. Assim, conclui-se pela existência de uma relação moderada entre o tempo de leitura
e o semanário preferido, já que os leitores que preferem o Expresso se diferenciam dos
leitores que preferem os outros dois semanários, embora estes dois grupos de leitores não
se diferenciam muito em termos do tempo médio de leitura.

2.3. Medidas de associação (e correlação)

São indicadores que pretendem medir a intensidade da relação e em algumas medidas também o
sentido (positivo ou negativo) da relação entre duas variáveis. Quando pelo menos uma variável é
qualitativa nominal fala-se em associação, quando ambas são quantitativas ou qualitativas ordinais
fala-se em correlação6, e nestes casos os indicadores dão a intensidade e o sentido da relação.

Não havendo um consenso, alguns autores apontam valores de referência para a interpretação dos
coeficientes de associação. No entanto, é consensual que valores próximos de 0 traduzem relações
fracas, valores em torno de 0,5 traduzem relações moderadas e que valores próximos de 1
representam relações fortes. No caso dos coeficientes de correlação, valores negativos traduzem
relações negativas e valores positivos relações positivas. A Figura 16 ilustra os tipos de correlações
e a Figura 18 evidencia diferentes intensidades (e sentidos) das relações.

Figura 18: Valores de referência para medidas de correlação

Por fim, importa referir que as medidas de associação, em geral e per si, não permitem descrever
a relação entre as duas características, devendo ser apresentadas como um complemento à análise
dos gráficos e/ou tabelas.

Medidas mais usuais

1. Coeficiente V de Cramer – é uma medida de associação adequada a duas variáveis nominais


(ou tratadas como tal)

Este coeficiente dá a intensidade da relação e é calculada a partir de uma tabela de


contingência com pelo menos uma variável qualitativa nominal não dicotómica7. O valor da

6
No entanto, podemos generalizar o termo associação para qualquer tipo de relação entre quaisquer dois tipos de
variáveis.
7
Quando ambas as variáveis nominais são dicotómicas, a medida de associação Phi é a adequada.
©ISCTE-Instituto Universitário de Lisboa 39
medida varia entre 0 e 1 e quanto mais se aproxima de um mais forte é a associação e em que
o zero representa ausência de associação.

2. Coeficiente Eta () – deve ser utilizado quando se tem uma variável quantitativa e uma
variável qualitativa nominal (ou tratada como tal), em que uma delas assume o estatuto de
variável dependente e a outra o de variável independente. O Eta varia entre 0 e 1 e tem a
mesma interpretação que o V de Cramer. Sempre que não seja muito evidente qual das duas
variáveis é a independente deve-se evitar esta medida.

Importa realçar que é usual calcular e interpretar o Eta2. Este indicador traduz a proporção (ou
a percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.

3. Ró de Spearman (Rho de Spearman) – é uma medida de correlação ordinal (rank correlation)


que se aplica quando se pretende analisar a relação entre duas variáveis ordinais (ou pelo
menos ordinais8). Usa no seu cálculo os valores ordenados (ranks) e não os valores
observados.
4. Coeficiente de correlação linear de Pearson (R de Pearson) – é uma medida de correlação
que se aplica quando se pretende analisar a relação entre duas variáveis quantitativas. Esta
medida só deve ser utilizada se a relação entre as duas variáveis for linear, pelo que antes de
a calcular é necessário representar a relação entre as duas variáveis num diagrama de
dispersão. Da análise do gráfico facilmente se avalia o tipo de relação, linear (forte ou fraca,
negativa ou positiva) ou não linear.

Tal como no caso do Eta, existindo uma relação de causa-efeito entre as duas variáveis em
estudo, é usual calcular e interpretar o R2. Este indicador traduz a proporção (ou a
percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.

Cálculo das medidas no SPSS Statistics

As medidas de associação / correlação podem ser calculadas em três comandos distintos, dependo
a sua seleção do tipo de variáveis em estudo. Assim, têm-se as seguintes possibilidades:

Relação entre duas variáveis qualitativas (V de Cramer)

Analyze  Descriptive Statistics  Crosstabs

8
Se forem duas variáveis quantitativas e se não existir uma relação de tipo linear entre elas não se deverá calcular o
coeficiente R de Pearson.

©ISCTE-Instituto Universitário de Lisboa 40


OUTPUT:____________________________________________________________________________
Symmetric Measures
Approximate
Value Significance
Nominal by Nominal Phi ,324 ,005
Cramer's V ,324 ,005
N of Valid Cases 100

Interpretação: a relação entre as variáveis semanário preferido e sexo é de intensidade fraca a moderada
(0,324).

Relação entre duas variáveis qualitativas ordinais (Spearman)

Analyze  Correlate  Bivariate

OUTPUT:____________________________________________________________________________
Correlations
Lê-se Leitura
facilmente agradável
Spearman's Lê-se Correlation Coefficient 1,000 ,582
rho facilmente Sig. (2-tailed) . ,000
N 100 100
Leitura Correlation Coefficient ,582 1,000
agradável Sig. (2-tailed) ,000 .
N 100 100

Intrepretação: a relação entre as variáveis lê-se facilmente e leitura agradável é de intensidade moderada
e positiva (0,582).

©ISCTE-Instituto Universitário de Lisboa 41


Relação entre uma variável quantitativa e outra qualitativa (Eta)

Previamente ao cálculo do Eta é necessário identificar os papéis das duas variáveis. Assim:
- Variável dependente (quantitativa): tempo de leitura do semanário preferido, em minutos
- Variável independente (qualitativa): sexo

Analyze  Compare means  Means

OUTPUTS: __________________________________________________________________________
Measures of Association
Eta
Eta Squared
Tempo de leitura do
semanário por mês ,163 ,026
(minutos) * sexo

Interpretação: a relação entre o tempo de leitura do semanário por mês e o sexo é de intensidade baixa
(0,163). Ou seja, apenas 2,6% da variação do tempo de leitura do semanário preferido é
explicada pelo sexo (𝐸𝑡𝑎 = 0,026).

Relação linear entre duas variáveis quantitativas (Pearson)

No SPSS Statistics,

Analyze  Correlate  Bivariate

OUTPUT: _____________________________________________________________________

©ISCTE-Instituto Universitário de Lisboa 42


Correlations
Tempo de leitura Tempo de leitura
semanal dos dos diários por
semanários semana
Tempo de leitura Pearson Correlation 1 ,987
semanal dos semanários Sig. (2-tailed) ,000
N 100 98
Tempo de leitura dos Pearson Correlation ,987 1
diários por semana Sig. (2-tailed) ,000
N 98 98

Interpretação: a relação linear entre os tempos de leitura semanal dos semanários e dos diários é quase
perfeita, i. e., é muito forte (0,987) e positiva, o que significa que ambas as variáveis variam
no mesmo sentido.

4. Transformação de variáveis e seleção de casos

4.1 Construção de novas variáveis/indicadores

4.1.1 Compute:

Com o comando Transform é possível operar diversas alterações na tabela de dados, como seja a
construção de novas variáveis com base nas que já existem. Uma possibilidade é a construção de
novos indicadores, por exemplo, índices, baseadas na informação de variáveis já existentes e que
se efectuam na opção Compute.

Exemplo:

Pode ser interessante construir a partir de duas variáveis originais associadas aos atrtibutos que os
jornais devem deter, Lê-se facilmente e Leitura agradável, construir-se uma nova variável latente,
Leitura Aprazível.

A construção desta nova variáve latente só é possível se duas condições prévias estiverem
validadas: se (1) as modalidades da escala ordinal de concordância estiverem todas ou quase todas
preenchidas e se (2) o coeficiente de 𝐴𝑙𝑝ℎ𝑎 𝑑𝑒 𝐶𝑟𝑜𝑛𝑏𝑎𝑐ℎ ≥ 0,7. O valor do Alpha deverá ser
próximo de 1 para indicar uma forte consistência dos indicadores, de forma a que possam ser
tratados como uma só variável. Este último coeficiente dá-nos a conhecer a consistência interna
das respostas dadas pelos respondentes: se umas forem num sentido e as restantes forem em sentido
oposto, o coeficiente será fraco e dizemos que os respondentes não foram consistentes nas suas
respostas. No caso contrário, pode ser construída uma nova variável cujos valores sejam a média
das respostas atribuídas às questões de concordância. Neste caso é possível recorrer à função média
(Mean) disponível entre as inúmeras funções de cálculo. Deve seguir-se criteriosamente as
indicações dadas para a construção da expressão numérica.

©ISCTE-Instituto Universitário de Lisboa 43


Validação das condições prévias:

1.
Statistics
Lê-se Leitura
facilmente agradável
N Valid 100 100
Missing 0 0

Frequency Frequency
Valid Discordo completamente 2 Valid Discordo completamente 4
Discordo 17 Discordo 7
Nao concordo nem discordo 35 Nao concordo nem discordo 25
Concordo 28 Concordo 48
Concordo completamente 18 Concordo completamente 16
Total 100 Total 100

R: Todas as modalidades foram respondidas

2. Seguindo os comandos do SPSS Statistics


Analyze, Scale, Reliability Analysis

OUTPUT: ___________________________________________________________________
Reliability Statistics
Cronbach's Alpha N of Items
,768 2

R: O coeficiente de Alpha de Cronbach é superior a 0,7 (0,768).

Logo, pode passar-se à construção da Leitura Aprazível, utilizando para isso, os comandos
Transforme, Compute

©ISCTE-Instituto Universitário de Lisboa 44


O campo para Target Variable deve ser preenchido com o nome da nova variável que deverá
constar na base de dados. Pode ainda definir-se nesta caixa o tipo e a etiqueta da variável.
Executando estes comandos surge a nova variável no final da tabela de dados.

A nova variável, varia entre 1 e 5 (tantas modalidades como os pontos da escala)

Cumulative
Frequency Percent Percent
Valid 1,00 1 1,0 1,0
1,50 4 4,0 5,0
2,00 3 3,0 8,0
2,50 10 10,0 18,0
3,00 12 12,0 30,0
3,50 31 31,0 61,0
4,00 20 20,0 81,0
4,50 7 7,0 88,0
5,00 12 12,0 100,0
Total 100 100,0

©ISCTE-Instituto Universitário de Lisboa 45


4.1.2 Recodificação

A recodificação no SPSS efectua-se através das opções Transform, Recode. Pode ser importante
alterar a codificação de uma dada variável, e por isso, proceder à substituição de códigos, mas
criando uma variável nova. Para tal executamos Recode into Different Variables.

Transform – Recode into different variables:

Por exemplo, podem ser criados escalões etários a partir da idade. Os escalões pretendidos são:

[20,25]; [26,30]; [31,40]; [41,50]

Caso seja necessário definir uma condição

©ISCTE-Instituto Universitário de Lisboa 46


Caixa de diálogo que permite a alteração dos códigos:

Deve salientar-se que as alterações efectuadas substituem o cenário anterior, o SPSS não guarda a
variável com as codificações anteriores.

Para proceder à recodificação é necessário seleccionar a ou as variáveis a codificar. Para cada


variável, dever ser definido um novo nome a constar na tabela de dados (Name) e uma
correspondente etiqueta (Label). As alterações só são assumidas quando se clica em Change.

Para definir a agregação de valores e os novos códigos é necessário proceder à correspondência


dos antigos e novos valores. As correspondências são assumidas quando se clica em Add. Caso
surja algum problema com alguma correspondência é possível seleccionar e proceder à alteração,
podendo depois optar por Change (alterar o existente) ou Remove (eliminar a correspondência).

No conjunto de opções que surgem no lado esquerdo é possível introduzir os valores da variável
de origem que se pretende recodificar, no lado direito da janela atribuem-se os novos valores.
Analisemos as opções em cada situação.

Old value:

Value: recodifica valor a valor.

System-missing: recodifica as não respostas de sistema.

System-missing or user-missing: recodifica as não respostas de sistema e as não respostas


codificadas.

©ISCTE-Instituto Universitário de Lisboa 47


Range: permite a recodificação de um intervalo de valores.

Range lowest though: intervalo desde o valor mais baixo até...

Range though highest: intervalo desde o valor …. até ao mais elevado.

All other values: permite a recodificação de todos os outros valores não mencionados
anteriormente.
New value:

Value: novo valor atribuído.

System-missing: quando é conveniente que algum valor (ou intervalo de valores) passe para não
resposta.
Copy old values: para manter alguns valores da variável inicial.

A variável nova será colocada no final da tabela de dados. Para confirmar a recodificação deverá
ser realizada uma tabela de frequências para a antiga e para a nova variével. De seguida é
necessário configurar os values da nova variável recodificada, utilizando a folha de variable view
da base de dados.

4.1.3 Recodificação automática

O SPSS permite uma recodificação automática de variáveis. A mesma é feita por ordem crescente
ou decrescente. Pode ser bastante útil quando se obtém a tabela de dados vinda, por exemplo, de
um ficheiro de Excel. Se considerar a variável Concelho, as categorias introduzidas estão em texto.

©ISCTE-Instituto Universitário de Lisboa 48


Quando passa para o SPSS é assumida como uma variável string. Pode então pedir-se uma
recodificação automática onde são atribuídos valores às categorias, por ordem alfabética. A tabela
de dados passa a ter uma nova variável no final, resultante da recodificação, sendo mantida a
variável antiga. O SPSS abre um ficheiro de output onde mostra as codificações efectuadas.

Por exemplo, considerando a recodificação automática de concelho a mensagem no ficheiro de


output é a seguinte:

4.2 Selecção de casos

Permite seleccionar grupos de indivíduos de acordo com alguma condição. As situações onde se
recorre mais a esta opção são a selecção de um determinado grupo de casos (por exemplo, em
situações de questões de filtro), ou quando se pretende efectuar uma selecção aleatória dentro da

©ISCTE-Instituto Universitário de Lisboa 49


tabela de dados. Os elementos seleccionados podem ser filtrados (inactivos temporariamente –
opção que consta por defeito) ou simplesmente eliminados.

Por exemplo, ao pretender trabalhar apenas com elementos que possuem o ensino básico, activa-
se Data, Select Cases, selecciona-se If condition is satisfied, If.

Com a activação de If, surge uma nova janela que permite colocar a condição de selecção. Neste
caso, a variável é “Habilitações literárias” e até ensino secundário está codificado com o valor 1,
logo a condição fica “habilit = 1”. Ao correr esta condição com Continue e depois OK, fica a
tabela de dados com elementos filtrados (aparece um traço sobre as linhas de casos inactivos)
passando produzir resultados apenas com os casos seleccionados.

©ISCTE-Instituto Universitário de Lisboa 50


Uma outra opção é Random sample of cases, que permite uma selecção aleatória simples de casos
dentro da tabela de dados. Pode seleccionar uma percentagem de casos, ou um número exacto de
entre os primeiros assinalados.
Para seleccionar um conjunto específico de
casos sucessivos utilliza-se a opção Based
on time or case range. Basta depois
indicar os limites do intervalo de casos a
considerar. Esta opção é muitas vezes
utilizada quando se trabalha com séries
temporais.

Quando se utiliza a opção Use filter


variable, a tabela de dados inactiva os
casos que não apresentam resposta na
variável seleccionada (tal como não
resposta de sistema. “system missing” ou
respostas classificadas com zero),
trabalhando apenas com quem tem
resposta.

Para voltar a utilizar todos os casos basta fazer Data, Select Cases, All Cases (guarda a última
condição de filtro, ou de selecção) ou Reset (volta à caixa de diálogo inicial, não guardando
qualquer condição).

Ainda é possível criar um ficheiro de “Syntax” a partir dos dos comandos que podem ficar
registados no output, ou seja, quando pedimos – Edit – options – Viewer – Display commands in
the log:

©ISCTE-Instituto Universitário de Lisboa 51


Quando se pede qualquer opção nas janelas, os comandos utilizados ficam registados no output:

©ISCTE-Instituto Universitário de Lisboa 52

Você também pode gostar