Você está na página 1de 51

ANÁLISE DE DADOS DESCRITIVA:

UNIVARIADA E BIVARIADA

Graça Trindade | Raul Laureano


©ISCTE-Instituto Universitário de Lisboa
Análise descritiva

ÍNDICE

1. Análise descritiva univariada 1


1.1 1.1 Nível de medida/natureza das variáveis 1
1.2 Representação gráfica dos dados 2
1.2.1 Dados qualitativos nominais 3

1.2.2 Dados qualitativos ordinais e/ou discretos 3

1.2.3 Gráficos para dados contínuos 4

1.2.4 Gráficos para representar medidas descritivas 4

1.3 Frequências 6
1.4 Medidas descritivas 7
1.4.1 Medidas de localização 8

1.4.1.1 Tendência central: média, média aparada, mediana e moda 8

1.4.1.2 Tendência não central: quartis, decis, percentis, mínimo e máximo 9

1.4.2 Medidas de dispersão 11

1.4.3 Enviesamento (Skewness) 12

1.4.4 Achatamento (Kurtosis) 13

2. Análise descritiva bivariada 15


2.1. Representação gráfica da relação entre duas variáveis 15
Representação gráfica de frequências 15

Representação gráfica de medidas descritivas 25

Representação gráfica de pontos num diagrama de dispersão 27

2.2. Tabelas de frequências e de medidas descritivas 30


Tabelas de contingência ou de dupla entrada (Crosstabs) 30

Tabelas de comparação de medidas descritivas (Custom tables) 32

2.3. Medidas de associação (e correlação) 33


Medidas mais usuais 34

Cálculo das medidas no SPSS Statistics 35

3. Transformação de variáveis e seleção de casos 38


3.1 Construção de novas variáveis/indicadores 38
3.2 Recodificação de variáveis 40
3.3 Selecção de casos 44
Análise descritiva

ÍNDICE DE FIGURAS
Figura 1: Distribuição dos leitores segundo o semanário da sua preferência 3
Figura 2: Distribuições das respostas ao atributo lê-se facilmente 3
Figura 3: Distribuição do número de semanários lidos por mês 3
Figura 4: Distribuição do número de semanários lidos por mês 4
Figura 5: Distribuição do número de semanários lidos por mês 5
Figura 6: Nível médio de concordância sobre alguns atributos do jornal 6
Figura 7: Principais técnicas da análise descritiva bivariada 15
Figura 8: Distribuição do semanário preferido por sexo 17
Figura 9: Distribuição do semanário preferido por sexo 18
Figura 10: Relação entre o semanário preferido e o sexo 19
Figura 11: Distribuição do semanário preferido por sexo 20
Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo 22
Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário
preferido 24
Figura 14: Tempo médio de leitura do semanário por semanário preferido 25
Figura 15: Distribuição do tempo de leitura do semanário por semanário preferido 26
Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y) 27
Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura semanal
dos diários 29
Figura 18: Valores de referência para medidas de correlação 33

ÍNDICE DE TABELAS
Tabela 1: Alguns procedimentos de análise descritiva univariada 1
Tabela 2: Distribuição do tempo de leitura do semanário preferido, em minutos 7
Tabela 3: Relação entre o semanário preferido e o sexo 30
Tabela 4: Distribuição do semanário preferido por sexo 32
Tabela 5: Distribuição do tempo de leitura do semanário por semanário preferido 33
Análise descritiva
“Estatística é a ciência que se ocupa da obtenção da informação (amostragem), seu tratamento inicial
(ordenação, cálculo de características amostrais, agrupamento em classes, representações gráficas – em
suma, estatística descritiva e análise exploratória de dados) com a finalidade de, através de resultados
probabilísticos adequados, inferir de uma amostra para a população. (). Por outras palavras, é um
instrumento de leitura da informação e da sua transformação em Conhecimento.”
(Dinis Pestana e Sílvio Velosa, 2002)

A Estatística Descritiva é constituída por um conjunto de métodos destinados à organização,


descrição e sintetização da informação através de indicadores estatísticos. Segundo Reis (2009), a
Estatística descritiva consiste na recolha, apresentação, análise e interpretação dos dados através
da criação de instrumentos adequados: tabelas, gráficos e indicadores.

1. Análise descritiva univariada

Para uma análise univariada, pretende-se estudar o comportamento de uma variável a partir do
resumo dos dados em gráficos, medidas descritivas e/ou tabelas de frequência.

1.1 1.1 Nível de medida/natureza das variáveis

É necessário identificarmos a natureza das variáveis de que dispomos para trabalhar e, deste
modo, escolher as análises adequadas.

Tabela 1: Alguns procedimentos de análise descritiva univariada


TIPO SUBTIPO REPRESENTAÇÃO MEDIDAS DESCRITIVAS
Tabelas de frequências 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 𝑐𝑒𝑛𝑡𝑟𝑎𝑙:
Localização:
{𝑀𝑜𝑑𝑎
(sem % acumuladas)
⎧Nominais
⎪ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 𝑐𝑒𝑛𝑡𝑟𝑎𝑙:
⎪ Gráficos circulares ou de barras ⎧ Moda
Qualitativas ⎪
⎪ Mediana
⎨ Tabelas de frequências
⎪ Localização: 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 𝑛ã𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑙:
⎪ 𝑂𝑟𝑑𝑖𝑛𝑎𝑖𝑠 (com intervalos descontínuos) ⎨
⎩ Quantis

⎪ Mínimo
Gráfico de barras, 𝑏𝑜𝑥𝑝𝑙𝑜𝑡, 𝑑𝑒 𝑙𝑖𝑛ℎ𝑎𝑠 ⎩ Máximo

⎧ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 Moda
⎪ 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 Mediana
𝑳𝒐𝒄𝒂𝒍𝒊𝒛𝒂çã𝒐 Média; Média aparada
Tabelas de frequências ⎨ Quantis
⎧Discretas ⎪ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 Mínimo


Gráficos de barras, 𝑏𝑜𝑥𝑝𝑙𝑜𝑡𝑠, … ⎩𝑛ã𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 Máximo
Quantitativas
Tabelas de frequências Intervalo de variação

⎪ (com intervalos contínuos) Intervalo interquartílico
⎪ Contínuas Dispersão
Histograma Desvio padrão

𝐵𝑜𝑥𝑝𝑙𝑜𝑡 Coeficiente de variação
Assimetria{ 𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
Achatamento {𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
Notas: (1) Um grupo de variáveis qualitativas ordinais medidas em escala ordinal tipo likert podem ter tratamento quantitativo; (2) As variáveis
dicotómicas têm tratamento qualitativo nominal.

©ISCTE-Instituto Universitário de Lisboa 1


Análise descritiva

As variáveis podem ser:

Qualitativas – se registam qualidades, i.e., se não estão expressas em números, ou estando não as
quantificam:

 Qualitativas nominais se as qualidades são registadas sem ordem, i. e., são meras
categorias: género, cor dos olhos, etc.
 Qualitativas ordinais se as qualidades são registadas com ordem: habilitações académicas,
escalões etários, etc.
Quantitativas – registam quantidades: altura, idade, nº de filhos por agregado familiar, etc.

 Variáveis quantitativas discretas – se o número de valores que a variável pode assumir for
finito ou infinito numerável (assume sempre valores inteiros, mesmo que não seja possível
definir-se um máximo)
 Variáveis quantitativas contínuas – se o número de valores que a variável pode assumir
for infinito não numerável (quando não se pode contá-los porque entre dois valores existe
sempre um terceiro).

Como decidir entre observações de variáveis discretas e de variáveis contínuas? São contagens?
São medições? Algumas observações de variáveis de natureza discretas são tratadas como dados
contínuos e o inverso também pode acontecer.

1.2 Representação gráfica1 dos dados

Para apresentar as frequências, em geral as percentagens, os gráficos adequados são:

 Dados de variáveis qualitativas nominais são melhor representados por gráficos circulares
(pie) em que a soma das partes é 100%.
 Dados de variáveis qualitativas ordinais ou de quantitativas discretas são melhor
representados por gráficos de barras.
 Dados de variáveis quantitativas contínuas são melhor representados por histogramas.

As medidas descritivas podem também ser apresentadas graficamente. É o caso de perfis de médias
ou de medianas (gráficos de linhas), diagrama de extremos e quartis, etc.

1
Os gráficos devem ter títulos, indicando-se claramente qual a caraterística/variável em estudo.

©ISCTE-Instituto Universitário de Lisboa 2


Análise descritiva

1.2.1 Dados qualitativos nominais

Versão a) Versão b)

Figura 1: Distribuição dos leitores segundo o semanário da sua preferência

1.2.2 Dados qualitativos ordinais e/ou discretos

Versão a) Versão b)
Figura 2: Distribuições das respostas ao atributo lê-se facilmente

Figura 3: Distribuição do número de semanários lidos por mês

©ISCTE-Instituto Universitário de Lisboa 3


Análise descritiva

1.2.3 Gráficos para dados contínuos

Para dados contínuos, o histograma é adequado para representar as frequências por classes.
Quantos intervalos (classes) se devem considerar?
 Regra para o cálculo do número de classes (k):
𝐾 = 5 para 𝑛 < 25 𝐾 ≈ √𝑛 para 𝑛 ≥ 25
 Classes definidas por conveniência, por exemplo, de acordo com outros estudos, ou de
acordo com os dados agregados disponíveis de estatísticas oficiais
 Usar o BOM SENSO!

Figura 4: Distribuição do número de semanários lidos por mês

Quando se pretender definir classes de diferentes amplitudes, o histograma deixa de ser adequado.
Neste caso, recodifica-se a variável original em escalões, passando a ser tratada como qualitativa
ordinal.

1.2.4 Gráficos para representar medidas descritivas

1.2.4.1 Diagramas de extremos e quartis (“Caixas-de-bigodes”)


É construído com base nos quartis, no mínimo e no máximo.

©ISCTE-Instituto Universitário de Lisboa 4


Análise descritiva

Este gráfico, tal como está, não deve constar de um relatório uma vez que estão identificados os
casos (id) que são outliers (32 e 68).

Outliers
Máximo = 15

Q3=9 Intervalo de
variação
Intervalo
interquartílico
Q1= 5

Mínimo = 2

Figura 5: Distribuição do número de semanários lidos por mês

Este gráfico é muito útil em análise de dados uma vez que contempla muita informação, incluindo
a identificação de outliers. Outliers2 são valores anómalos e, por isso mesmo, afastam-se do padrão
considerado (entre Q3 e Q1), sendo classificados em moderados e severos:

 Outlier moderado – há dois outliers sobrepostos, que não se distinguem no respetivo


gráfico, e que estão identificados por um círculo (os casos 32 e 68):
𝑄 + 1,5 × (𝑄 − 𝑄 ) < 𝑋 ≤ 𝑄 + 3 × (𝑄 − 𝑄 )
ou
𝑄 − 3 × (𝑄 − 𝑄 ) ≤ 𝑋 < 𝑄 − 1,5 × (𝑄 − 𝑄 )

 Outlier severo - identificado no gráfico por um asterisco:


𝑋 > 𝑄 + 3 × (𝑄 − 𝑄 ) ou 𝑋 < 𝑄 − 3 × (𝑄 − 𝑄 )

O fim dos “bigodes” não coincide necessariamente com o mínimo e máximo se existirem outliers.
Output:_____________________________________________________________________
Extreme Values
Case Number Value
Número de Highest 1 32 16
semanários 2 68 16
lidos por 3 33 15
mês
4 34 15
5 69 14a
Lowest 1 52 2
2 14 2
3 90 3
4 89 3
5 67 3b

2
Há autores que definem os outliers como desvios face à média de um, ... , desvios padrão. Por exemplo: 𝑋 ± 3 𝑠′.
©ISCTE-Instituto Universitário de Lisboa 5
Análise descritiva

a. Only a partial list of cases with the value 14 are shown in the table
of upper extremes.
b. Only a partial list of cases with the value 3 are shown in the table
of lower extremes.

Note-se que no output estão identificados alguns dos valores extremos e os outliers sobrepostos.
Os casos 32 e 68 são outliers.

Vantagem - Temos uma ideia da localização dos valores observados, da sua dispersão, e do grau
de assimetria da distribuição. No exemplo dado, a distribuição do Número de semanários lidos por
mês é assimétrica; e, como a mediana está mais próxima do Q1, caraterizamos esta distribuição
como assimétrica positiva.

1.2.4.2 Gráfico de linhas


O gráfico de linhas é adequado quando se pretende descrever em simultâneo mais de uma variável
medidas nas mesmas unidades. Podem ser utilizados para representar uma medida de tendência
central (media ou mediana). Por exemplo, se as variáveis forem qualitativas ordinais medidas
numa escala tipo Likert e, portanto, passíveis de serem tratadas como quantitativas, pode usar-se
este tipo de gráfico.

Figura 6: Nível médio de concordância sobre alguns atributos do jornal

1.3 Frequências

Os valores que uma variável pode assumir podem ser representados em frequências:

 Frequência absoluta – é o número de vezes que cada modalidade/categoria ou valor da


variável se repete.
 Frequência relativa – é o número de vezes que a modalidade/categoria ou valor da variável
ocorre relativamente ao total (= proporção).

©ISCTE-Instituto Universitário de Lisboa 6


Análise descritiva

 Frequência acumulada – corresponde à soma do número de ocorrências ou da proporção de


elementos observados para as modalidades da variável inferiores ou iguais à modalidade em
causa.

Quando a variável é qualitativa nominal, não se calculam as frequências acumuladas por estas
pressuporem uma ordenação dos valores da variável. Note-se ainda que as frequências relativas
usualmente são apresentadas em percentagens.

Tabela 2: Distribuição do tempo de leitura do semanário preferido, em minutos


Tempo %
Ocorrências %
(min) acumulada
30 9 9,1 9,1
45 12 12,1 21,2
50 4 4,0 25,3
60 19 19,2 44,4
75 8 8,1 52,5
90 12 12,1 64,6
105 6 6,1 70,7
120 11 11,1 81,8
135 2 2,0 83,8
150 6 6,1 89,9
165 2 2,0 91,9
180 6 6,1 98,0
195 2 2,0 100,0
Total 99 100,0

1.4 Medidas descritivas

As medidas descritivas (ou de síntese) resumem os valores da variável (dos dados) num só valor e
estão classificadas em diversos tipos: i) localização de tendência central; ii) localização de
tendência não central; iii) dispersão e concentração; iv) assimetria; e v) achatamento. No entanto,
para descrever corretamente o comportamento duma variável são necessárias sempre mais do que
uma medida, sendo fundamental apresentar, pelo menos, uma de localização de tendência central
e uma de dispersão.
No SPSS Statistics existem vários comandos que permitem calcular as principais medidas
descritivas. Por exemplo:

Analyze  Descriptive statistics  Frequencies

©ISCTE-Instituto Universitário de Lisboa 7


Análise descritiva

1.4.1 Medidas de localização

1.4.1.1 Tendência central: média, média aparada, mediana e moda

1) Variáveis qualitativas nominais  MODA (o valor que mais vezes foi observado)
MODA: pode ser calculada qualquer que seja o tipo de variável. A moda representa a
modalidade da variável que ocorre mais vezes.

2) Variáveis qualitativas ordinais  MODA e a MEDIANA (é o valor da variável que acumula


até si 50% das observações)

MEDIANA: pode ser também calculada para variáveis quantitativas. É a medida de localização
preferida para distribuições fortemente assimétricas. Para ser calculada, os valores da variável
têm de ser ordenados.
Exemplo simplificado da base de dados:

𝑋 𝐹 % % ac
1 2 9,09 9,09
2 2 9,09 18,18
3 3 13,64 31,82
4 4 18,18 50,00
5 4 18,18 68,18
6 3 13,64 81,82
7 2 9,09 90,91
8 2 9,09 100,00
n 22
Output: ______________________________________________________________________________

Apesar da mediana ser indeterminada,


assume-se que é igual a:
Dados ordenados: (𝑘 = 22  par)

1,1,2,2,3,3,3,4,4,4,4,5,5,5,5,6,6,6,7,7,8,8

𝑀 = = 4,5 jornais lidos por semana

Interpretação: metade dos leitores leem, no máximo, 4,5 diários por semana.

©ISCTE-Instituto Universitário de Lisboa 8


Análise descritiva

3) Variáveis quantitativas discretas  MODA, MEDIANA, MÉDIA E MÉDIA APARADA

MÉDIA: 𝑋 = ∑ 𝑥 : corresponde ao valor que a variável teria se todas as observações


fossem iguais e pode ser um valor não assumido pela variável (contrariamente à Moda) e tem
como desvantagem ser fortemente influenciada por valores extremos e outliers da distribuição.
Output:_____________________________________________________________________

Interpretação: se todos os leitores lessem semanalmente o mesmo número de diários, esse valor seria
de 4,5.

MÉDIA APARADA: excluindo os 5% dos valores ordenados mais baixos da variável e os 5%


dos valores mais elevados, calcula-se a média dos valores que correspondem a 90% das
observações centrais. É uma medida útil quando existem outliers uma vez que podem ser
eliminados neste processo.

1.4.1.2 Tendência não central: quartis, decis, percentis, mínimo e máximo

Quartis: dividem a distribuição de frequências em 4 partes iguais

 Q1 – é o valor da variável que acumula até si 25% das observações


 Q2  Mediana
 Q3 – corresponde ao valor da variável que acumula até si 75% das observações
Percentis: dividem a distribuição de frequências em 100 partes iguais. Por exemplo, P80 acumula
até si 80% das observações, etc.

Há vários critérios para calcular os percentis. No SPSS Statistics:


Analyze  Descriptive statistics  Explore

©ISCTE-Instituto Universitário de Lisboa 9


Análise descritiva

Outputs:___________________________________________________________________
Descriptives
Statistic Std. Error
Tempo de leitura do Mean 88,70 4,512
semanário (minutos) 5% Trimmed Mean 86,56
Median 75,00
Variance 2035,667
Std. Deviation 45,118
Minimum 30
Maximum 195
Range 165
Interquartile Range 67,50
Skewness ,708 ,241
Kurtosis -,455 ,478

Percentiles
Percentiles
5 10 25 50 75 90 95
Weighted Tempo de leitura do
30,00 45,00 52,50 75,00 120,00 163,50 180,00
Average(Definition 1) semanário (minutos)
Tukey's Hinges Tempo de leitura do
55,00 75,00 120,00
semanário (minutos)

Analyze, Custom Tables, Custom Tables

Percentile 25 Median Percentile 75


Tempo de leitura do
55 75 120
semanário (minutos)

Como se pode ver, dependendo do critério utilizado (do comando usado no SPSS Statistics),
assim os valores dos percentis podem ser diferentes. Se utilizarmos o critério da Média
ponderada, o P25 = 52,5 min; se for utilizado o critério de Tukey, esse valor passa a ser igual a
55 min! Se acedermos a estas medidas via Explore, é utilizado o critério da Média ponderada,
mas, se acedermos a Custom Tables, já é utilizado o critério de Tukey.

Interpretação: Q3= 120 min, i. e., 75% dos leitores inquiridos demoram, no máximo, 120 minutos a ler o
semanário preferido. De outra forma, 25% dos leitores demoram, no mínimo, 120 minutos
a ler o semanário preferido.

©ISCTE-Instituto Universitário de Lisboa 10


Análise descritiva

1.4.2 Medidas de dispersão

As medidas de dispersão permitem-nos ter uma ideia da variabilidade dos valores da variável.

1.4.2.1 Medidas absolutas


Das medidas de dispersão absolutas, destacam-se as seguintes:

∑ ( ) ∑ ( ) ∑ ( )
1. Variância3 ; ;

É uma medida de dispersão que avalia o quadrado dos afastamentos em relação à média das
observações. É expressa no quadrado das unidades da variável, o que a torna mais difícil de
interpretar;
2. Desvio-padrão +√𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
Sendo a raiz quadrada positiva da variância é expressa nas mesmas unidades que a variável em
estudo;
3. Intervalo de variação (𝑉𝑎𝑙𝑜𝑟 á − 𝑉𝑎𝑙𝑜𝑟 í )

Corresponde à amplitude definida pelo valor resultante da diferença entre o valor máximo e o
valor mínimo;

4. Intervalo interquartílico (𝑄 − 𝑄 )
Corresponde à “caixa” da caixa-de-bigodes e indica-nos onde se encontram os 50% de
observações “centrais”.

A variância e o desvio-padrão só podem ser calculados para variáveis quantitativas porque medem
o afastamento em relação à média.

1.4.2.2 Medidas relativas


Das medidas de dispersão relativas, destaque-se o coeficiente de variação.

Coeficiente de variação × 100; × 100;

Permite avaliar a dispersão de uma distribuição, ou comparar a dispersão entre duas ou mais
distribuições, e permite ainda medir a representatividade da média. É usual aceitar-se que, se este
coeficiente for superior a 50%, a média deixa de ser representativa. Neste caso, deve-se preferir-
se a mediana ou a média aparada.

Output: ____________________________________________________________________

3∑ (𝑋 − 𝑋) corresponde à variação total relativamente à média (𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 = 𝑇𝑆𝑆) e dividida pelo
número de observações (ou 𝑛 − 1) corresponde à variância que mais não é do que variação média.

©ISCTE-Instituto Universitário de Lisboa 11


Análise descritiva

Interpretações:

(1) o desvio do tempo de leitura do semanário preferido face à sua média (88,38 min) é, em termos
médios, de 45,237 minutos.
(2) A diferença entre a duração do tempo de leitura mais elevada e a mais baixa é de 165 minutos.
(3) A amplitude registada entre os tempos de leitura no grupo de respostas central (75%-25%) é
de 70 minutos, isto é, excluindo os 25% dos leitores com tempos de leitura mais baixos e os
25% com tempos mais altos, a variação máxima dos tempos de leitura dos restantes leitores
(50%) é de 70 minutos.
,
(4) 𝐶𝑣 = , × 100 ≈ 51,18%  o peso do desvio padrão em relação à média é de 51,18%, o
que mostra ser uma dispersão moderadamente dispersa.

1.4.3 Enviesamento (Skewness)

A comparação das medidas de tendência central permite-nos avaliar o enviesamento dos dados.
Em distribuições unimodais:

a) Distribuição simétrica b) Assimétrica positiva c) Assimétrica negativa


𝑀é𝑑𝑖𝑎 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 𝑀é𝑑𝑖𝑎 > 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 𝑀é𝑑𝑖𝑎 < 𝑀𝑒𝑑𝑖𝑎𝑛𝑎

No SPSS Statistics, o coeficiente de assimetria (𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠) é calculado de acordo com a


seguinte fórmula:

∑ ( ) ∑ ( )
𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠 = ( )( )
𝑆′ com 𝑀 = e 𝑆′ =

Skewness = 0  distribuição simétrica


Skewness > 0  distribuição assimétrica positiva (aba direita mais longa)
Skewness < 0  distribuição assimétrica negativa (aba esquerda mais longa)

©ISCTE-Instituto Universitário de Lisboa 12


Análise descritiva

Assimétrica positiva
Assimétrica negativa
Simétrica

Output: ___________________________________________________________________________

Interpretação: a distribuição do tempo de leitura do semanário preferido (minutos) é assimétrica


positiva na amostra (+ 0,728) e assimétrica positiva na população de onde esta amostra
,
tiver sido gerada através de um processo probabilístico ( ,
= 2,99 ≥ 1,96 𝑝𝑎𝑟𝑎  =

0,95).

1.4.4 Achatamento (Kurtosis)

No SPSS Statistics, o coeficiente de achatamento ou de curtose (Kurtosis) é calculado de acordo


com a seguinte fórmula:
𝑛 (𝑛 + 1)𝑀 (𝑛 − 1)
𝑲𝒖𝒓𝒕𝒐𝒔𝒊𝒔 = −3
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑆′ (𝑛 − 2)(𝑛 − 3)

∑𝒏
𝒊 𝟏(𝑿𝒊 𝑿)
𝟒 ∑ ( )
com 𝑀 𝟒 = e 𝑆′ =
𝒏

Kurtosis = 0  distribuição mesocúrtica


Kurtosis > 0  distribuição leptocúrtica (menos achatada que a gaussiana)
Kurtosis < 0  distribuição platicúrtica (mais achatada que a gaussiana)

©ISCTE-Instituto Universitário de Lisboa 13


Análise descritiva

(+) Leptokurtic
(0) Mesokurtic
(Normal)

(-) Platykurtic

Output: ___________________________________________________________________________

Interpretação: a distribuição do Tempo de leitura do semanário preferido (min) é platicúrtica na


amostra (- 0,437) e mesocúrtica (com achatamento idêntico á da distribuição normal)
,
na população − ,
≈ −0,91 ∈ (−1,96; +1,96) para  = 0,95 .

©ISCTE-Instituto Universitário de Lisboa 14


Análise descritiva

2. Análise descritiva bivariada

Numa análise descritiva bivariada pretende-se descrever a relação entre duas características, isto
é, perceber de que forma a distribuição de uma delas se comporta perante a alteração na
distribuição da outra. Importa também referir que as relações entre variáveis, que se pretendem
aqui identificar, estabelecem ou não relações de dependência. As relações de dependência, em que
há uma variável que é explicada pela outra (relação causa-efeito), são definidas pelas teorias.

Tal como na análise descritiva univariada, as técnicas a utilizar dependem da natureza das variáveis
em estudo, havendo sempre a possibilidade de se recorrer a gráficos, tabelas e a medidas de
associação (entre as quais se encontram as de correlação). A Figura 7 mostra as diferentes técnicas
possíveis de serem utilizadas numa análise descritiva bivariada.

Figura 7: Principais técnicas da análise descritiva bivariada

2.1. Representação gráfica da relação entre duas variáveis

Representação gráfica de frequências

Circular em painel
Se o gráfico circular é adequado para representar graficamente uma variável qualitativa nominal,
continua a ser adequado para representar graficamente duas variáveis qualitativas nominais.

No SPSS Statistics:

©ISCTE-Instituto Universitário de Lisboa 15


Análise descritiva

Chart editor, Elements, Show


Data Labels

Após algumas formatações, e de acordo com o que já foi referido no estudo da análise descritiva
univariada, uma possível solução é apresentada na Figura 8.

©ISCTE-Instituto Universitário de Lisboa 16


Análise descritiva

Figura 8: Distribuição do semanário preferido por sexo

Interpretação: a percentagem de leitores que preferem os semanários Expresso e Regional é superior no


grupo dos leitores do sexo masculino, quando comparada com o grupo do sexo feminino
(54,5% e 30,3% vs 41,2% e 14,7%, respetivamente); contudo, a percentagem de leitoras do
semanário Sol (44,1%) é superior à percentagem correspondente no grupo masculino
(15,2%). Deste modo denota-se uma relação entre o semanário preferido e o sexo do leitor.

Barras empilhadas a 100% (100% Stacked)


O gráfico de barras empilhadas a 100% é um gráfico adequado a duas variáveis qualitativas quando
se pretende ver se há alguma relação entre elas. No SPSS Statistics:

A Figura 9 mostra, após algumas formatações, uma solução possível.

©ISCTE-Instituto Universitário de Lisboa 17


Análise descritiva

Figura 9: Distribuição do semanário preferido por sexo

Interpretação: a percentagem de leitores que preferem o Expresso é maioritária no grupo dos leitores do
sexo masculino (54,5%), quando comparada com o grupo do sexo feminino (41,2%). Em
contraste, a % de leitores que preferem o Sol é bastante mais relevante no grupo de leitores
do sexo feminino (44,1%), já que apenas 15,2% dos leitores do sexo masculino preferem
este semanário. Deste modo, identificam-se algumas diferenças nas preferências entre os
dois sexos: enquanto que no grupo de leitores do sexo masculino há uma preferência clara
pelo Expresso, já no grupo das leitoras, essa preferência, já não sendo tão clara, vai para o
Sol, seguido de perto pelo Expresso (41,2%). Assim, conclui-se haver uma relação entre
estas características.

Barras agrupados (Clustered)


O gráfico de barras agrupadas decorre da representação gráfica das percentagens que resultam do
cruzamento de duas variáveis e, usualmente, apresentadas numa tabela de contingência
(Crosstabs). Contudo, quando se pretende identificar relações entre as variáveis, deve pedir-se as
percentagens segundo uma das variáveis e não sobre o total.

Sempre que o registo de uma categoria (ou barra de uma cor) dominante num grupo corresponder
a um registo minoritário da categoria (barra da mesma cor) no outro grupo (ou num outro grupo),
diz-se que as variáveis estão relacionadas  a uma inversão dos pesos de uma categoria em cada
um dos grupos da outra variável.

Analisam-se dois casos, um com a percentagem do total, outro com a percentagem segundo o sexo.

CASO 1: percentagem do total

©ISCTE-Instituto Universitário de Lisboa 18


Análise descritiva

Figura 10: Relação entre o semanário preferido e o sexo

Interpretação: a Figura 10 evidencia que o grupo de leitores mais expressivo corresponde aos leitores do
sexo masculino e que preferem o Expresso (36%), sendo o menos expressivo, com uma
percentagem de apenas 5%, o grupo de leitores do sexo feminino e que preferem o
Regional.

CASO 2: percentagem segundo uma das variáveis


É um gráfico que fornece informação idêntica ao gráfico de barras empilhadas a 100% e que
permite, por isso mesmo, identificar potenciais associações entre variáveis. No SPSS Statistics:

©ISCTE-Instituto Universitário de Lisboa 19


Análise descritiva

Após algumas formatações obtém-se:

Figura 11: Distribuição do semanário preferido por sexo

Interpretação: a mesma retirada para o gráfico de barras empilhadas a 100%..

Histograma
No SPSS Statistics só se conseguem fazer histogramas com classes de igual amplitude e, em alguns
casos, apresentar as frequências absolutas (contagens de leitores), situações estas que restringem
a utilidade destes gráficos para caracterizar a relação entre duas variáveis, uma quantitativa
contínua e outra qualitativa. Apresentam-se dois casos.

CASO 1: histograma estilo pirâmide


No SPSS Statistics recorre-se a: Chart Builder, Histogram

©ISCTE-Instituto Universitário de Lisboa 20


Análise descritiva

Alterar a escala do eixo 𝑌𝑌’ dos


dois lados

©ISCTE-Instituto Universitário de Lisboa 21


Análise descritiva

Chart Editor, Show Data Labels

Selecionando-se as barras, obtenha-se o nº de leitores em


cada uma das barras selecionado-se Show data labels

Após algumas formatações, diferentes das apresentadas nas caixas de diálogo anteriores, obtém-
-se a Figura 12.

Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo

©ISCTE-Instituto Universitário de Lisboa 22


Análise descritiva

Interpretação: os tempos de leitura do semanário preferido são superiores no grupo dos leitores do sexo
masculino por não haver registos de leitores do sexo feminino a despender tempos de leitura
nos intervalos 160 - 180 minutos; por outro lado, as barras associadas ao tempo de leitura
do semanário preferido no grupo dos leitores do sexo masculino, “mancha verde”, é sempre
superior às barras no outro grupo, “mancha azul”, por haver mais registos de leitores nesse
grupo; por exemplo, há 22 leitores do sexo masculino que demoram a ler mensalmente
entre 40 – 60 minutos contra 13 leitoras. Mas, há mais leitores (66) do que leitoras (34).

CASO 2: histograma em painel

PAINEL EM LINHA: no SPSS Statistics

Show Distribution Curve

©ISCTE-Instituto Universitário de Lisboa 23


Análise descritiva

PAINEL EM COLUNA:

Um possível resultado, após algumas formatações, é:

Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário preferido

©ISCTE-Instituto Universitário de Lisboa 24


Análise descritiva

Representação gráfica de medidas descritivas

Se o objetivo for representar graficamente diferentes medidas descritivas de uma variável


quantitativa (ou de uma qualitativa ordinal) nos diferentes grupos definidos por uma variável
qualitativa, o gráfico de linhas (line) e o diagrama de extremos e quartis (boxplot) são os gráficos
mais adequados.

Gráfico de linhas (Perfil de médias ou de medianas)


O gráfico de linhas é adequado para representar graficamente a média ou a mediana da variável
quantitativa nos diferentes grupos definidos pela variável qualitativa. No SPSS Statistics,

Após algumas formatações obtém-se:

Figura 14: Tempo médio de leitura do semanário por semanário preferido

©ISCTE-Instituto Universitário de Lisboa 25


Análise descritiva

Interpretação: o tempo médio de leitura do semanário preferido é claramente superior no semanário


Expresso (118,2 minutos) quando comparado com os outros dois semanários, Sol e
Regional, em que os tempos médios de leitura são muito próximos e quase metade do tempo
de leitura do Expresso, respetivamente, de 57 e 61,4 minutos. Assim, conclui-se que possa
existir uma relação entre o semanário preferido e o tempo de leitura, relação esta que é
marcada por grandes diferenças nos tempos de leitura entre o Expresso e os outros dois
jornais.

2.1.2.1. Diagrama de extremos e quartis (Boxplot):


O boxplot é adequado para representar os quartis, o mínimo e o máximo (e os intervalos de
variação e interquartílico) e os outliers (moderados e severos), quando estes existirem.

No SPSS Statistics:

Após algumas formatações, a Figura 15 apresenta uma possível solução.

Figura 15: Distribuição do tempo de leitura do


semanário por semanário preferido

©ISCTE-Instituto Universitário de Lisboa 26


Análise descritiva

Interpretação: apesar de se registar o mesmo valor mínimo (30 minutos) para o tempo de leitura dos leitores
que preferem qualquer um dos três semanários, os tempos de leitura do Expresso para os
quartis e valor máximo são sempre superiores aos dos outros semanários. Comparando-se os
tempos de leitura registados para o Regional e o Sol, pode-se adiantar que, se 25% dos
respondentes demoram, no máximo, cerca de 45 minutos a ler o Regional ou o Sol (o 𝑄1 =
45 minutos é igual em ambos os semanários), já metade dos leitores que preferem o
Regional, levam, no máximo, 60 minutos a lê-lo, correspondem a 75% dos leitores que
preferem o Sol para o mesmo tempo de leitura (ou seja, 𝑄 ; ≡𝑄 ; ). Concluindo,
é visível que os tempos de leitura para o Expresso se afastam dos tempos de leitura registados
para os outros dois semanários (são sempre superiores), esperando-se por isso haver relação
entre estas duas características, embora não muito forte.

Representação gráfica de pontos num diagrama de dispersão

O gráfico de dispersão (Scatter Dot) é adequado para representar relações, em particular relações
lineares, entre duas variáveis quantitativas. Se existir uma forte relação linear (positiva ou
negativa) entre as variáveis, os pares de valores posicionam-se bastante próximos de uma reta
traçada à mão (ou de uma reta ajustada); se, pelo contrário se afastam dessa reta, visualiza-se que
a relação linear entra as variáveis é fraca ou mesmo inexistente. A Figura 16 apresenta diferentes
tipos de relação e uma situação em que não existe qualquer relação linear ou não linear (c).

(a) Relação linear positiva e (b) Relação linear negativa e (c) Ausência de relação (d) Relação, mas não linear
forte moderada
Fonte: Doane e Seward (2008: 491)

Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y)

No SPSS Statistics4:

4
A partir do tempo de leitura do semanário preferido por mês constrói-se uma variável para representar o tempo de
leitura do semanário preferido por semana. Para o efeito recorre-se no SPSS Statistics ao comando Transform,
Compute variable e insere-se a expressão que permite dividir o tempo mensal por quatro semanas (Tempo de leitura
do semanário preferido por mês/4).
©ISCTE-Instituto Universitário de Lisboa 27
Análise descritiva

Escala 𝑋𝑋’ Escala 𝑌𝑌’

Chart Editor, Options, Bin Element

©ISCTE-Instituto Universitário de Lisboa 28


Análise descritiva

Chart Editor, Elements, Fit Line at Total

Após algumas formatações, a Figura 17 apresenta a relação linear positiva entre as duas
características.

Reta ajustada

Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura semanal dos
diários

Interpretação: a relação linear entre os tempos de leitura dos dois tipos de jornais (quanto à periodicidade)
evidencia ser forte e positiva, uma vez que os círculos correspondentes aos pares de valores
estão bastante próximos da reta traçada que apresenta declive positivo, ou seja., ambas as

©ISCTE-Instituto Universitário de Lisboa 29


Análise descritiva

variáveis variam no mesmo sentido: quando o tempo de leitura dos diários cresce, o tempo
de leitura dos semanários também cresce e de forma muito clara.

2.2. Tabelas de frequências e de medidas descritivas

As tabelas estatísticas apresentam maior precisão nos resultados relativos às variáveis em estudo.
Se as variáveis forem qualitativas, as tabelas adequadas são as tabelas de contingência (Crosstabs);
se uma delas for quantitativa e a outra qualitativa, a tabela de (comparação de) medidas descritivas
(via Tables, Custom Tables ou via Explore) é a tabela adequada. No caso de duas variáveis
quantitativas, não se justifica a realização de uma tabela, dada a sua dimensão e a muito reduzida
interpretação que permite.

Tabelas de contingência ou de dupla entrada (Crosstabs)

São adequadas a variáveis qualitativas, devendo-se privilegiar as percentagens em linha e/ou


coluna, quando o objetivo seja descrever a relação entre as duas características em estudo. No
SPSS Statistics podem ser obtidas, por exemplo.

Analyze  Descriptive Statistics  Crosstabs

Tabela 3: Relação entre o semanário preferido e o sexo


sexo
feminino masculino Total
Semanário Expresso Count 14 36 50
preferido % within Semanario preferido 28,0% 72,0% 100,0%
% within sexo 41,2% 54,5% 50,0%
% of Total 14,0% 36,0% 50,0%
Regional Count 5 20 25
% within Semanario preferido 20,0% 80,0% 100,0%
% within sexo 14,7% 30,3% 25,0%
% of Total 5,0% 20,0% 25,0%
Sol Count 15 10 25
% within Semanario preferido 60,0% 40,0% 100,0%
% within sexo 44,1% 15,2% 25,0%
% of Total 15,0% 10,0% 25,0%
Total Count 34 66 100
% within Semanario preferido 34,0% 66,0% 100,0%
% within sexo 100,0% 100,0% 100,0%
% of Total 34,0% 66,0% 100,0%

©ISCTE-Instituto Universitário de Lisboa 30


Análise descritiva

Interpretação de diferentes valores presentas na tabela:


 Registam-se 36 leitores ( 36%) que preferem o semanário Expresso e que são do sexo
masculino;
 Dos leitores que preferem o Expresso, 72% são do sexo masculino;
 Dos leitores do sexo masculino, 54,5% preferem o Expresso como semanário preferido;
 50% dos leitores preferem o semanário Expresso;
 66% dos leitores são do sexo masculino;
 14% dos leitores são do sexo feminino e preferem o semanário expresso;
 50 leitores preferem o semanário expresso;
 34 leitores são do sexo feminino;
 100 leitores responderam a ambas as questões, isto é, ao sexo e ao semanário preferido (neste
caso corresponde ao total de indivíduos alvo do estudo);
 (...).

Interpretação: identifica-se uma potencial relação entre o semanário preferido e o sexo uma vez que dos
66 leitores que são do sexo masculino, 36 preferem o Expresso (54,5%), enquanto que, dos
34 leitores do sexo feminino, 44,1% (𝑛 = 5) preferem o Sol e 41,2% (𝑛 = 14) preferem o
Expresso. De outra forma, verificam-se algumas alterações nas preferências do semanário
quando se passa da análise dos leitores para a análise das leitoras.

Mas podem também ser obtidas com o comando Analyze  Tables  Custom Tables:

©ISCTE-Instituto Universitário de Lisboa 31


Análise descritiva

Após algumas formatações, a tabela pode apresentar o seguinte aspeto:

Tabela 4: Distribuição do semanário preferido por sexo


Sexo
Feminino Masculino
Leitores % Leitores %
Semanario Expresso 12 37,5% 28 48,3%
preferido Regional 5 15,6% 20 34,5%
Sol 15 46,9% 10 17,2%
Total 32 100,0% 58 100,0%

Tabelas de comparação de medidas descritivas (Custom tables)

São mais adequadas para caracterizar a relação entre uma variável quantitativa e uma qualitativa,
em que se calculam as medidas descritivas para a quantitativa em cada grupo definido pela
qualitativa. No SPSS Statistics:
Analyze Tables  Custom tables

©ISCTE-Instituto Universitário de Lisboa 32


Análise descritiva

Após algumas formatações obtém a Tabela 5.

Tabela 5: Distribuição do tempo de leitura do semanário por semanário preferido


Tempo de leitura Semanário preferido
(em minutos) Expresso Regional Sol Total
Média 118,20 61,40 57,00 88,70
Desvio padrão 43,56 22,62 19,36 45,12
Leitores 50 25 25 100

Interpretação: a média do tempo de leitura do semanário Expresso é maior (118,2 minutos) do que as
médias dos tempos de leitura dos outros dois semanários (Regional = 61,4 minutos e Sol =
57 minutos); os desvios padrão, quando comparados com as respetivas médias, são menos
de metade em todos estes semanários, o que leva a concluir-se que a dispersão do tempo
de leitura dos semanários preferidos, Expresso, Regional e Sol, em torno da sua média, é
fraca. Assim, conclui-se pela existência de uma relação moderada entre o tempo de leitura
e o semanário preferido, já que os leitores que preferem o Expresso se diferenciam dos
leitores que preferem os outros dois semanários, embora estes dois grupos de leitores não
se diferenciam muito em termos do tempo médio de leitura.

2.3. Medidas de associação (e correlação)

São indicadores que pretendem medir a intensidade da relação e em algumas medidas também o
sentido (positivo ou negativo) da relação entre duas variáveis. Quando pelo menos uma variável é
qualitativa nominal fala-se em associação, quando ambas são quantitativas ou qualitativas ordinais
fala-se em correlação5, e nestes casos os indicadores dão a intensidade e o sentido da relação.

Não havendo um consenso, alguns autores apontam valores de referência para a interpretação dos
coeficientes de associação. No entanto, é consensual que valores próximos de 0 traduzem relações
fracas, valores em torno de 0,5 traduzem relações moderadas e que valores próximos de 1
representam relações fortes. No caso dos coeficientes de correlação, valores negativos traduzem
relações negativas e valores positivos relações positivas. A Figura 16 ilustra os tipos de correlações
e a Figura 18 evidencia diferentes intensidades (e sentidos) das relações.

Figura 18: Valores de referência para medidas de correlação

5
No entanto, podemos generalizar o termo associação para qualquer tipo de relação entre quaisquer dois tipos de
variáveis.
©ISCTE-Instituto Universitário de Lisboa 33
Análise descritiva

Por fim, importa referir que as medidas de associação, em geral e per si, não permitem descrever
a relação entre as duas características, devendo ser apresentadas como um complemento à análise
dos gráficos e/ou tabelas.

Medidas mais usuais

1. Coeficiente V de Cramer – é uma medida de associação adequada a duas variáveis nominais


(ou tratadas como tal)

Este coeficiente dá a intensidade da relação e é calculada a partir de uma tabela de


contingência com pelo menos uma variável qualitativa nominal não dicotómica6. O valor da
medida varia entre 0 e 1 e quanto mais se aproxima de um mais forte é a associação e em que
o zero representa ausência de associação.

2. Coeficiente Eta () – deve ser utilizado quando se tem uma variável quantitativa e uma
variável qualitativa nominal (ou tratada como tal), em que uma delas assume o estatuto de
variável dependente e a outra o de variável independente. O Eta varia entre 0 e 1 e tem a
mesma interpretação que o V de Cramer. Sempre que não seja muito evidente qual das duas
variáveis é a independente deve-se evitar esta medida.

Importa realçar que é usual calcular e interpretar o Eta2. Este indicador traduz a proporção (ou
a percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.

3. Ró de Spearman (Rho de Spearman) – é uma medida de correlação ordinal (rank correlation)


que se aplica quando se pretende analisar a relação entre duas variáveis ordinais (ou pelo
menos ordinais7). Usa no seu cálculo os valores ordenados (ranks) e não os valores
observados.
4. Coeficiente de correlação linear de Pearson (R de Pearson) – é uma medida de correlação
que se aplica quando se pretende analisar a relação entre duas variáveis quantitativas. Esta
medida só deve ser utilizada se a relação entre as duas variáveis for linear, pelo que antes de
a calcular é necessário representar a relação entre as duas variáveis num diagrama de
dispersão. Da análise do gráfico facilmente se avalia o tipo de relação, linear (forte ou fraca,
negativa ou positiva) ou não linear.

6
Quando ambas as variáveis nominais são dicotómicas, a medida de associação Phi é a adequada.
7
Se forem duas variáveis quantitativas e se não existir uma relação de tipo linear entre elas não se deverá calcular o
coeficiente R de Pearson.

©ISCTE-Instituto Universitário de Lisboa 34


Análise descritiva

Tal como no caso do Eta, existindo uma relação de causa-efeito entre as duas variáveis em
estudo, é usual calcular e interpretar o R2. Este indicador traduz a proporção (ou a
percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.

Cálculo das medidas no SPSS Statistics

As medidas de associação / correlação podem ser calculadas em três comandos distintos, dependo
a sua seleção do tipo de variáveis em estudo. Assim, têm-se as seguintes possibilidades:

Relação entre duas variáveis qualitativas (V de Cramer)


Analyze  Descriptive Statistics  Crosstabs

Output:______________________________________________________________________________

Symmetric Measures
Approximate
Value Significance
Nominal by Nominal Phi ,324 ,005
Cramer's V ,324 ,005
N of Valid Cases 100

Interpretação: a relação entre as variáveis semanário preferido e sexo é de intensidade fraca a moderada
(0,324).

Relação entre duas variáveis qualitativas ordinais (Spearman)


Analyze  Correlate  Bivariate

Outup:____________________________________________________________________________

©ISCTE-Instituto Universitário de Lisboa 35


Análise descritiva

Correlations
Lê-se Leitura
facilmente agradável
Spearman's Lê-se Correlation Coefficient 1,000 ,582
rho facilmente Sig. (2-tailed) . ,000
N 100 100
Leitura Correlation Coefficient ,582 1,000
agradável Sig. (2-tailed) ,000 .
N 100 100

Intrepretação: a relação entre as variáveis lê-se facilmente e leitura agradável é de intensidade moderada
e positiva (0,582).

Relação entre uma variável quantitativa e outra qualitativa (Eta)


Previamente ao cálculo do Eta é necessário identificar os papéis das duas variáveis. Assim:
- Variável depende (quantitativa): tempo de leitura do semanário preferido, em minutos
- Variável independente (qualitativa): sexo

Analyze  Compare means  Means

Outputs: __________________________________________________________________________

Measures of Association
Eta
Eta Squared
Tempo de leitura do
semanário por mês ,163 ,026
(minutos) * sexo

Interpretação: a relação entre o tempo de leitura do semanário por mês e o sexo é de intensidade baixa
(0,163). Ou seja, apenas 2,6% da variação do tempo de leitura do semanário preferido é
explicada pelo sexo (𝐸𝑡𝑎 = 0,026).

Relação linear entre duas variáveis quantitativas (Pearson)


No SPSS Statistics,
Analyze  Correlate  Bivariate

©ISCTE-Instituto Universitário de Lisboa 36


Análise descritiva

Output: _____________________________________________________________________
Correlations
Tempo de leitura Tempo de leitura
semanal dos dos diários por
semanários semana
Tempo de leitura Pearson Correlation 1 ,987
semanal dos semanários Sig. (2-tailed) ,000
N 100 98
Tempo de leitura dos Pearson Correlation ,987 1
diários por semana Sig. (2-tailed) ,000
N 98 98

Interpretação: a relação linear entre os tempos de leitura semanal dos semanários e dos diários é quase
perfeita, i. e., é muito forte (0,987) e positiva, o que significa que ambas as variáveis variam
no mesmo sentido.

©ISCTE-Instituto Universitário de Lisboa 37


Análise descritiva

3. Transformação de variáveis e seleção de casos

3.1 Construção de novas variáveis/indicadores

Compute:

Com o comando Transform é possível operar diversas alterações na tabela de dados, como seja a
construção de novas variáveis com base nas que já existem. Uma possibilidade é a construção de
novos indicadores, por exemplo, índices, baseadas na informação de variáveis já existentes e que
se efectuam na opção Compute.

Exemplo:

Pode ser interessante construir a partir de duas variáveis originais associadas aos atrtibutos que os jornais
devem deter, Lê-se facilmente e Leitura agradável, construir-se uma nova variável latente, Leitura
Aprazível.

A construção desta nova variáve latente só é possível se duas condições prévias estiverem
validadas: se (1) as modalidades da escala ordinal de concordância estiverem todas ou quase todas
preenchidas e se (2) o coeficiente de 𝐴𝑙𝑝ℎ𝑎 𝑑𝑒 𝐶𝑟𝑜𝑛𝑏𝑎𝑐ℎ ≥ 0,7. O valor do Alpha deverá ser
próximo de 1 para indicar uma forte consistência dos indicadores, de forma a que possam ser
tratados como uma só variável. Este último coeficiente dá-nos a conhecer a consistência interna
das respostas dadas pelos respondentes: se umas forem num sentido e as restantes forem em sentido
oposto, o coeficiente será fraco e dizemos que os respondentes não foram consistentes nas suas
respostas. No caso contrário, pode ser construída uma nova variável cujos valores sejam a média
das respostas atribuídas às questões de concordância. Neste caso é possível recorrer à função média
(Mean) disponível entre as inúmeras funções de cálculo. Deve seguir-se criteriosamente as
indicações dadas para a construção da expressão numérica.

Validação das condições prévias:


1.
Statistics
Lê-se Leitura
facilmente agradável
N Valid 100 100
Missing 0 0

Frequency Frequency
Valid Discordo completamente 2 Valid Discordo completamente 4
Discordo 17 Discordo 7
Nao concordo nem discordo 35 Nao concordo nem discordo 25
Concordo 28 Concordo 48
Concordo completamente 18 Concordo completamente 16
Total 100 Total 100

R: Todas as modalidades foram respondidas

©ISCTE-Instituto Universitário de Lisboa 38


Análise descritiva

2. Seguindo os comamdos do SPSS Statistics


Analyze, Scale, Reliability Analysis

Output: ___________________________________________________________________
Reliability Statistics
Cronbach's Alpha N of Items
,768 2

R: O coeficiente de Alpha de Cronbach é superior a 0,7 (0,768).

Logo, pode passar-se à construção da Leitura Aprazível, utilizando para isso, os comandos

Transforme, Compute

©ISCTE-Instituto Universitário de Lisboa 39


Análise descritiva

O campo para Target Variable deve ser preenchido com o nome da nova variável que deverá
constar na base de dados. Pode ainda definir-se nesta caixa o tipo e a etiqueta da variável.
Executando estes comandos surge a nova variável no final da tabela de dados.

A nova variável, varia entre 1 e 5 (tantas modalidades como os pontos da escala)

Cumulative
Frequency Percent Percent
Valid 1,00 1 1,0 1,0
1,50 4 4,0 5,0
2,00 3 3,0 8,0
2,50 10 10,0 18,0
3,00 12 12,0 30,0
3,50 31 31,0 61,0
4,00 20 20,0 81,0
4,50 7 7,0 88,0
5,00 12 12,0 100,0
Total 100 100,0

3.2 Recodificação de variáveis

Recodificação

A recodificação no SPSS efectua-se através das opções Transform, Recode. Pode ser importante
alterar a codificação de uma dada variável, e por isso, proceder à substituição de códigos, mas
criando uma variável nova. Para tal executamos Recode into Different Variables.

Transform – Recode into different variables:

Por exemplo, podem ser criados escalões etários a partir da idade. Os escalões pretendidos são:

[20,25], [26,30], [31,40], [41,50]

©ISCTE-Instituto Universitário de Lisboa 40


Análise descritiva

Caso seja necessário definir uma condição

Caixa de diálogo que permite a alteração dos códigos:

©ISCTE-Instituto Universitário de Lisboa 41


Análise descritiva

Deve salientar-se que as alterações efectuadas substituem o cenário anterior, o SPSS não guarda a
variável com as codificações anteriores.

Para proceder à recodificação é necessário seleccionar a ou as variáveis a codificar. Para cada


variável, dever ser definido um novo nome a constar na tabela de dados (Name) e uma
correspondente etiqueta (Label). As alterações só são assumidas quando se clica em Change.

Para definir a agregação de valores e os novos códigos é necessário proceder à correspondência


dos antigos e novos valores. As correspondências são assumidas quando se clica em Add. Caso
surja algum problema com alguma correspondência é possível seleccionar e proceder à alteração,
podendo depois optar por Change (alterar o existente) ou Remove (eliminar a correspondência).

No conjunto de opções que surgem no lado esquerdo é possível introduzir os valores da variável
de origem que se pretende recodificar, no lado direito da janela atribuem-se os novos valores.
Analisemos as opções em cada situação.

Old value:

Value: recodifica valor a valor.

System-missing: recodifica as não respostas de sistema.

System-missing or user-missing: recodifica as não respostas de sistema e as não respostas


codificadas.
Range: permite a recodificação de um intervalo de valores.

Range lowest though: intervalo desde o valor mais baixo até...

©ISCTE-Instituto Universitário de Lisboa 42


Análise descritiva

Range though highest: intervalo desde o valor …. até ao mais elevado.

All other values: permite a recodificação de todos os outros valores não mencionados
anteriormente.
New value:

Value: novo valor atribuído.

System-missing: quando é conveniente que algum valor (ou intervalo de valores) passe para não
resposta.
Copy old values: para manter alguns valores da variável inicial.

A variável nova será colocada no final da tabela de dados. Para confirmar a recodificação deverá
ser realizada uma tabela de frequências para a antiga e para a nova variével. De seguida é
necessário configurar os values da nova variável recodificada, utilizando a folha de variable view
da base de dados.

Recodificação automática

O SPSS permite uma recodificação automática de variáveis. A mesma é feita por ordem crescente
ou decrescente. Pode ser bastante útil quando se obtém a tabela de dados vinda, por exemplo, de
um ficheiro de Excel. Se considerar a variável Concelho, as categorias introduzidas estão em texto.
Quando passa para o SPSS é assumida como uma variável string. Pode então pedir-se uma
recodificação automática onde são atribuídos valores às categorias, por ordem alfabética. A tabela
de dados passa a ter uma nova variável no final, resultante da recodificação, sendo mantida a
variável antiga. O SPSS abre um ficheiro de output onde mostra as codificações efectuadas.

©ISCTE-Instituto Universitário de Lisboa 43


Análise descritiva

Por exemplo, considerando a recodificação automática de concelho a mensagem no ficheiro de


output é a seguinte:

3.3 Selecção de casos

Selecção de casos

Permite seleccionar grupos de indivíduos de acordo com alguma condição. As situações onde se
recorre mais a esta opção são a selecção de um determinado grupo de casos (por exemplo, em
situações de questões de filtro), ou quando se pretende efectuar uma selecção aleatória dentro da
tabela de dados. Os elementos seleccionados podem ser filtrados (inactivos temporariamente –
opção que consta por defeito) ou simplesmente eliminados.

Por exemplo, ao pretender trabalhar apenas com elementos que possuem o ensino básico, activa-
se Data, Select Cases, selecciona-se If condition is satisfied, If.

©ISCTE-Instituto Universitário de Lisboa 44


Análise descritiva

Com a activação de If, surge uma nova janela que permite colocar a condição de selecção. Neste
caso, a variável é “Habilitações literárias” e até ensino secundário está codificado com o valor 1,
logo a condição fica “habilit = 1”. Ao correr esta condição com Continue e depois OK, fica a
tabela de dados com elementos filtrados (aparece um traço sobre as linhas de casos inactivos)
passando produzir resultados apenas com os casos seleccionados.

©ISCTE-Instituto Universitário de Lisboa 45


Análise descritiva

Uma outra opção é Random sample of cases, que permite uma selecção aleatória simples de casos
dentro da tabela de dados. Pode seleccionar uma percentagem de casos, ou um número exacto de
entre os primeiros assinalados.
Para seleccionar um conjunto específico de
casos sucessivos utilliza-se a opção Based
on time or case range. Basta depois
indicar os limites do intervalo de casos a
considerar. Esta opção é muitas vezes
utilizada quando se trabalha com séries
temporais.

Quando se utiliza a opção Use filter


variable, a tabela de dados inactiva os
casos que não apresentam resposta na
variável seleccionada (tal como não
resposta de sistema. “system missing” ou
respostas classificadas com zero),
trabalhando apenas com quem tem
resposta.

Para voltar a utilizar todos os casos basta fazer Data, Select Cases, All Cases (guarda a última
condição de filtro, ou de selecção) ou Reset (volta à caixa de diálogo inicial, não guardando
qualquer condição).

Ainda é possível criar um ficheiro de “Syntax” a partir dos dos comandos que podem ficar
registados no output, ou seja, quando pedimos – Edit – options – Viewer – Display commands in
the log:

©ISCTE-Instituto Universitário de Lisboa 46


Análise descritiva

Quando se pede qualquer opção nas janelas, os comandos utilizados ficam registados no output.

©ISCTE-Instituto Universitário de Lisboa 47

Você também pode gostar