Você está na página 1de 60

ESTATISTICA I

2º SEMESTRE, 1º ANO
APONTAMENTOS

DEFINIÇÃO DE ESTATÍSTICA
Ciência relativa à recolha, análise e interpretação de dados, com o objetivo de
extrair conclusões e tomar decisões.
Na “ótica do utilizador”, trata-se de um conjunto de técnicas para análise de dados.

ESTATÍSTICA DESCRITIVA E ESTATÍSTICA INDUTIVA


• Estatística Descritiva:
Conjunto de procedimentos para organizar e sumariar a informação de uma
forma tão breve e precisa quanto possível.
Procedimentos – Organizar, resumir e descrever conjuntos volumosos de dados.
Recorre a técnicas aritméticas (ex.: médias, equações de regressão) e técnicas
gráficas (ex.: histogramas).

• Estatística Indutiva (ou inferencial):


Conjunto de procedimentos usados para fazer inferências a partir de informação
parcial, avaliando o grau de incerteza envolvido da generalização.
Procura fazer generalizações para uma população a partir da informação parcial
observada em amostras. Procura controlar a margem de erro envolvido na
generalização. Procura distinguir as variações atribuíveis ao acaso das que se podem
atribuir aos fatores que estão a ser estudados.

A Estatística Descritiva permite descrever a amostra e a Estatística Indutiva permite


generalizar adequadamente essa descrição para a população de onde a amostra foi
retirada, recorrendo para isso à Teoria das Probabilidades.

UNIDADES DE ANÁLISE, VARIÁVEIS E VALORES


Pessoas à Unidades de Análise
Valores à Medição dos seus Atributos

Unidades de Análise à Atributo (variável) à Valor

1
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

ESCALAS DE MEDIDA
• Medir:
Mundo Real (objeto de estudo) à Medição à Números (representação matemática)

Correspondência um-para-um entre o atributo medido (observação) e os


números que o representam. As regras para atribuir números às observações devem ser
padronizadas. As regras devem ser estáveis, não se alterando de situação para situação
ou de objeto para objeto.

• Propriedades dos Números:


Estabelecem relações de igualdade e diferença (12 ≠ 7). Estabelecem relações de
ordem (12 > 7). Resultam da sona ou da subtração de unidades (12 tem mais 4 unidades
do que 7). Estabelecem relações de proporcionalidade (12 é o dobro de 6).

• Escala Nominal ou Categorial:


Os números são usados como etiquetas (nomes ou categorias) para identificar
os objetos medidos. A atribuição dos números aos objetos medidos é convencionada –
não refletem quantidade da característica observada, mas sim a qualidade.
As medições nesta escala apenas nos permitem saber se dois objetos são iguais
ou diferentes no que respeita ao aspeto que está a ser medido. A única operação
matemática permitida é a contagem (frequência e moda).

• Escala Ordinal:
Os números são usados para ordenar os objetos consoante a “quantidade” da
característica medida. Informa se um objeto tem mais ou menos quantidade do que
outro, mas não quão mais ou menos.
Pode ser usada qualquer série de números, desde que preserve as relações de
ordem entre os objetos medidos. Além da operação de contagem, é possível identificar
“posições” (máximo, mínimo, mediana, etc.).

2
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Escala Intervalar:
Os números são usados para expressar as distâncias (intervalos) entre os objetos,
consoante a “quantidade” da característica medida. Permite comparar diferenças entre
objetos. As unidades de medida são convencionadas. A localização do 0 é
convencionada (0 não significa “ausência de”). É possível proceder a somas e diferenças
com os valores destas escalas de medida (média, desvio-padrão, etc.).

• Escala de Razão ou de Quociente:


Possui as mesmas propriedades da escala intervalar, mas inclui um 0 absoluto (0
significa “ausência de”). É possível estabelecer relações de proporcionalidade entre os
valores destas escalas. É possível proceder a multiplicação e divisão com valores de
variáveis medidas a este nível; todos os procedimentos estatísticos são permitidos.

Exemplo em Estatística permitida


Escala Propriedades
Psicologia Descritiva Inferencial
Números identificam Percentagens, Teste do qui-
Nominal Sexo
e classificam objetos moda quadrado
Números identificam
ESE, Mediana, Correlação de
Ordinal as posições relativas
Preferências percentis Spearman
dos objetos
Atitudes,
Números expressam Correlação de
traços de Média, desvio-
Intervalar diferenças entre Pearson,
personalidade, padrão
objetos testes t
QI
Números expressam
Média
diferenças entre
Razão Idade geométrica e
objetos e o zero é
harmónica
absoluto

3
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Conversão entre Escalas:


Quatro medições efetuadas em quatro objetos:

Tipo de
Medida Objeto 1 Objeto 2 Objeto 3 Objeto 4
escala
Peso do
pacote de Quociente 1000g 1003g 994g 1008g
açúcar
Desvio face
ao
estipulado
Intervalo 0g + 3g - 6g + 8g
na
embalagem
(1 kg)
Ordenação
Ordinal 2 3 1 4
do peso
Correção do
peso face ao
Nominal 1 0 0 0
referido na
embalagem*
* 1 se o peso for correto, 0 se o peso for incorreto

• O Problema das “Escalas de tipo Likert”:


Estas “escalas” permitem avaliar variáveis contínuas, discretizando-as e gerando
intervalos não necessariamente equivalentes. Embora sejam consideradas ordinais,
alguns autores tratam-nas como intervalares.

4
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Recomendações Gerais:
Considerar três níveis de medida: nominal, ordinal e de escala.
Escolher, sempre que possível, a escala de medida mais rica e informativa; se
necessário, a informação poderá sempre ser convertida a posteriori para uma das
escalas menos exigentes, ignorando a informação excessiva.
Evitar escalas ordinais, pois nem sempre existem técnicas estatísticas adequadas
à análise deste tipo de dados.

• Variáveis Discretas e Contínuas:


Variáveis discretas – Tomam um número finito de valores (ou infinitamente numerável).
Variáveis contínuas – Tomam um número infinito de valores (não numerável).

ESTATÍSTICA DESCRITIVA UNIVARIADA


A Estatística Descritiva é uma técnica para sumariar sem perder informação.
Aplicável, por exemplo, numa turma para saber aptidão numérica. Procedimentos
organizar, resumir e descrever conjuntos volumosos de dados. Recorre a tabelas,
gráficos (ex.: histogramas) e técnicas aritméticas (ex.: médias, coeficiente de
correlação).
Tipos de análise descritiva:
a) Análise Univariada – caracterizar a distribuição de uma variável de cada vez
b) Análise Bivariada – caracterizar a distribuição conjunta de duas variáveis.
c) Análise multivariada – caracterizar a distribuição conjunta de três ou mais
variáveis.

• Tipos de Dados:
Análise Descritiva e Tipos de Dados:
Importante: As técnicas de análise descritiva a utilizar vão depender de:
a) Natureza métrica dos dados (nominal versus escala);
b) Necessidade de agrupar ou não os valores da variável.

5
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Classificação (Simplificada) dos Tipos de Dados:


Dados:
a) Variável qualitativa (nominal);
b) Variável ordinal;
c) Variável quantitativa (de escala).

Dados:
a) Poucos valores – Não agrupar;
b) Muitos valores – Agrupar.

Análise de Dados Univariados – Explora a informação distribucional, ou seja,


conhecer como se distribuem na amostra os valores que a variável toma.

• Dados nominais:
Como resumir a informação distribucional presente numa amostra:
a) Tabelas;
b) Gráficos;
c) Estatísticas descritivas.

Variável medida numa escala nominal → não se podem efetuar operações


matemáticas com os seus valores. Logo, não se podem calcular estatísticas
descritivas. A única exceção é a “moda” (o valor mais frequente da amostra).
Podem ainda ser calculados indicadores da dispersão dos sujeitos pelos valores
da variável nominal:
a) Índice de variação qualitativa (Wilcoxon, 1957);
b) Entropia (Shannon, 1948).

6
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

No entanto, o SPSS não calcula estes índices.

• Dados nominais agrupados:


Se o objetivo da Estatística Descritiva é sumariar a informação, convém que esta
seja apresentada de forma reduzida, sem, todavia, perder demasiada precisão.

• Dados quantitativos/Dados quantitativos agrupados:


Para proceder a um agrupamento correto de uma variável numérica, é preciso seguir
alguns passos:
a) Quantas classes?
a. O no de classes deve ser adequado à dimensão da amostra.
b. Regra de Sturges: O número de classes (k) deve ser o menor
k
c. inteiro que satisfaz a desigualdade 2 ≥ N.
b) Qual a largura de cada classe?
a. Amplitude da amostra = Máx – Mín.
b. Amplitude de cada classe = (Amplitude da amostra + 1) / Nº de classes
c. Amplitude da classe = 74 / 8 = 9,25 ≈ 10
i. Atenção: Arredondar sempre por excesso, para não “ficar a
faltar”.
c) Onde começar a primeira classe?
a. Distribuir o excesso de seis valores pelos dois lados do intervalo: começar
em 98 (três valores a abaixo) e acabar em 177 (três valores acima)...
d) Caracterizar as classes:
a. Para cada classe, identificar...
b. Os limites reais da classe (geralmente definidos meia unidade acima e
meia unidade abaixo dos limites da classe):
c. Classe 1: [97.5, 107.5[ Classe 2: [107.5, 117.5[ etc...
d. Estes limites reais são utilizados para calcular estatísticas descritivas a
partir dos dados agrupados.

7
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

ESTATÍSTICAS DESCRITIVAS DE LOCALIZAÇÃO


• Técnicas Descritivas:
Técnicas para caracterizar a distribuição de uma variável:
a) Tabelas;
b) Gráficos;
c) Estatísticas descritivas.

• Dados quantitativos:
Características Distribucionais:
Distribuição das notas a Matemática de rapazes e raparigas do 10º ano:
Têm localizações diferentes? Têm dispersões diferentes?

Quatro características fundamentais de uma distribuição:


a) Medidas de localização ou tendência central;
b) Medidas de dispersão ou variabilidade;
c) Medidas de assimetria;
d) Medidas de curtose.

Medidas de Localização:
Medidas de localização centrais:
a) Média;
b) Mediana;
c) Moda.
Medidas de localização não centrais
a) Quantis (tercis, quartis, decis, percentis);
b) Extremos (mínimo e máximo).

8
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Média:
Média - qual o seu significado?
Somar das observações e dividir pelo número de observações.

Significado “físico” da média – Média como ponto de equilíbrio de uma distribuição.

Exemplo:
Variável X - Número de reprovações no percurso escolar anterior à Universidade.

Mediana:
Mediana - valor central da distribuição
Como calcular? Se a dimensão da amostra for ímpar, a mediana corresponde ao
elemento central da amostra ordenada.
Se a dimensão da amostra for par, a mediana corresponde à média dos dois
elementos centrais da amostra ordenada.
Amostra N = 150 Quais os elementos centrais da amostra ordenada?

Mediana = (2 + 2) / 2 =2

9
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Moda:
Moda - valor mais frequente da distribuição.

Quantis:
Quantis – Família de medidas de localização que dividem a amostra em k grupos
com igual número de observações.

Tercis – 2 valores que dividem a amostra em 3 grupos.


Quartis – 3 valores que dividem a amostra em 4 grupos.
Decis – 9 valores que dividem a amostra em 10 grupos.
Percentis – 99 valores que dividem a amostra em 100 grupos.

Tercis:
T1 – valor que tem atrás de si 33,3% da amostra ordenada.
T2 – valor que tem atrás de si 66,7% da amostra ordenada.

Quartis:
Q1 – valor que tem atrás de si 25% da amostra ordenada.
Q2 – valor que tem atrás de si 50% da amostra ordenada.
Q3 – valor que tem atrás de si 75% da amostra ordenada.
Decis:
D1 – valor que tem atrás de si 10% da amostra ordenada.
D2 – valor que tem atrás de si 20% da amostra ordenada.
Etc.

Percentis:
P01 – valor que tem atrás de si 1% da amostra ordenada.
P02 – valor que tem atrás de si 2% da amostra ordenada.
...
P99 – valor que tem atrás de si 99% da amostra ordenada.

10
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Cálculos de quantis em amostras pequenas:

Relações de igualdade entre quantis:


Mediana = Q2 = D5 = P50
Q1 = P25
Q3 = P75
T1 = P33 (aproximadamente)
T2 = P67 (aproximadamente)
D1 = P10; D2 = P20; D3 = P30, etc...

Utilização de percentis:
Dizer que o bebé se situa no percentil 40 para o peso significa que 40% dos bebés
do seu grupo etário têm peso igual ou inferior ao dele.

Cálculo dos quartis no exemplo:

Extremos amostrais: mínimo e máximo:


Min = 0 Máx = 7

11
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Significado das Medidas de Localização:


Que acontece à média se movermos qualquer uma das observações?

O ponto de equilíbrio modifica-se: 6,67 → 6,58.


O valor da média depende de TODOS os valores da amostra.

Mediana como ponto que divide a amostra ordenada em dois grupos de igual
dimensão.

Que acontece à mediana se movermos qualquer uma das observações (à


exceção dos valores centrais)?

O ponto central da distribuição não se altera: 7. A mediana depende apenas dos


valores centrais da amostra.

Moda como o valor mais frequente da amostra. Que acontece se se mover


qualquer outro valor da distribuição? A moda não se altera.

12
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Estatísticas robustas:
Há medidas de localização mais sensíveis e outras menos sensíveis a pequenas
(ou grandes) alterações no valor das observações.
As medidas menos sensíveis são consideradas estatísticas robustas.
A média, ao contrário da mediana, é sensível a qualquer modificação dos dados
e também à presença de outliers.

Outliers:
Outliers (valores marginais) são observações da amostra que se afastam
excessivamente da parte central da distribuição.

Exemplo:
Idades de um grupo de alunos: 18, 18, 19, 20, 20, 22, 23, 56
Média: 24,5
Média sem outlier: 20
Mediana: 20
Mediana sem outlier: 20
A média é sensível à presença do valor marginal, dando informação distorcida.

13
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Dados quantitativos tabelados não agrupados:


Cálculo de medidas de localização:
Dados tabelados não agrupados:

Dados tabelados agrupados:

14
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Moda:
O cálculo a moda envolve a determinação da classe modal (classe que agrupa
maior número de observações) e a aplicação da fórmula seguinte.

Lm – limite inferior da classe modal.


hm – amplitude da classe modal.

∅1 – frequência da classe modal - frequência da classe anterior.


∅2 – frequência da classe modal - frequência da classe posterior.

ESTATISTICAS DESCRITIVAS PARA CARACTERIZAR A DISPERSÃO, ASSIMETRIA E


CURTOSE DE UMA DISTRIBUIÇÃO
• Dados quantitativos:
Características de uma distribuição:
Quatro características fundamentais de uma distribuição:
a) Localização;
b) Dispersão;
c) Assimetria;
d) Curtose.

15
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Dispersão:
Os índices de dispersão pretendem avaliar a dispersão da variável ao longo da
reta numérica (variabilidade).
As medidas de dispersão podem expressar o grau de dispersão da distribuição em
torno de um valor central ou podem indicar a amplitude do intervalo de valores que a
variável toma.

• Medidas de dispersão:
Amplitude (amostral):
Amplitude (amostral) – Intervalo que inclui as observações da amostra.
Amplitude = Máximo – Mínimo
Medida muito pouco robusta!

Variância:
Variância – média do quadrado das diferenças entre as observações e a média.

Qual das distribuições tem maior variância? Em média, os desvios face à média
no primeiro caso são maiores do que no segundo!

16
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Fórmula de variância mais adequada para cálculos “manuais”:

A interpretação do valor variância é difícil porque se expressa em unidades ao


quadrado.

Desvio-padrão:
Desvio-padrão – Raiz positiva da variância.

S = √ 2,2017 = 1,4838 ≈ 1,48

Como se expressa nas mesmas unidades que a variável em estudo, é


mais utilizado do que a variância.

Interpretar o valor do desvio-padrão:


S = 1,48 Muita dispersão? Pouca dispersão?
É difícil interpretar o valor do desvio-padrão em termos absolutos (por
exemplo, para saber se a distribuição é muito ou pouco dispersa).
A interpretação do desvio- padrão depende da forma da distribuição e da
gama de valores que a variável toma.
A desigualdade de Chebyschev dá alguma orientação quanto à concentração
da distribuição em torna da média em função dos valores de S (ver figura).

De uma forma geral, em distribuições “bem-comportadas” (simétricas e

17
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

unimodais), uma fração elevada das observações se situa no intervalo compreendido


entre “média – desvio-padrão” e “média + desvio-padrão”.
O desvio-padrão é sobretudo útil para comparar a dispersão de distribuições
(interpretação o seu valor relativo e não absoluto).

Amplitude interquartílica:
Amplitude interquartílica – Intervalo entre o 1º e o 3º quartil.
AIQ = Q3 – Q1 = 3 – 1 = 2

Medidas de Dispersão:
Como interpretar a variância (ou o desvio-padrão)?
Distribuições mais concentradas (A) apresentam valores
de variância menores do que distribuições dispersas (C).

Robustez das medidas de dispersão:


Efeito de outliers:

Amplitude àmenos robusta. Desvio-padrão à moderadamente robusta.


Amplitude interquartílica à mais robusta.

18
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Medidas de assimetria:
A assimetria expressa o grau em que a variável se distribui de forma equilibrada
à direita e à esquerda da medida de tendência central. Existem três tipos de assimetria,
que podem variar em grau:
Assimetria nula (simetria) Assimetria positiva (à direita) Assimetria negativa (à
esquerda).

Como avaliar a assimetria?


Através da análise da distribuição (gráficos ou tabelas)
a) Através de estatísticas descritivas específicas;
b) Através da comparação das medidas de localização.

19
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Estatísticas descritivas específicas (medidas de assimetria):


a) Coeficiente de Assimetria de Fisher;
b) Coeficiente de Assimetria de Pearson.

Coeficiente de Assimetria de Fisher:


(Skewness no SPSS)

Se g1 = 0, a distribuição é simétrica. Se g1 > 0, a distribuição é assimétrica à

direita. Se g1 < 0, a distribuição é assimétrica à esquerda.

No exemplo em estudo...

g1 = 0,981

Como g1 > 0, trata-se de uma distribuição com assimetria positiva.

A análise de g1 atendendo apenas ao seu sinal pode levar a erros de

interpretação.
Por exemplo, se g1 = + 0,002 dever-se-á considerar a distribuição assimétrica

positiva ou devemos considerar que seu valor é negligenciável e a distribuição ser


considerada simétrica? É preciso relativizar o valor de g1.

A interpretação do valor de g1 deve atender ao erro-padrão dessa estatística

20
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

(S.E.).
Se |g1 / S.E.| > 2, a assimetria é significativamente diferente de 0.

g1 = 0,981 S.E. = 0,198

|0,981 / 0,198| = 4,95 > 2 à Assimetria significativa.

Coeficiente de Assimetria de Pearson:


(adequado apenas em distribuições unimodais)

Se g2 = 0, a distribuição é simétrica. Se g2 > 0, a distribuição é assimétrica

positiva. Se g2 < 0, a distribuição é assimétrica negativa.

No exemplo em estudo...

g2 = (1,86 – 1) / 1,484 = 0,580

Como g2 > 0, trata-se de uma distribuição com assimetria positiva.

NOTA: A validade do CAP depende essencialmente da confiança que temos no


valor da moda.

21
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Avaliar a assimetria:
Comparação entre medidas de localização:

Numa distribuição unimodal...


Se Média = Mediana = Moda, a distribuição é simétrica. Se Média < Mediana <
Moda, a distribuição é assimétrica negativa (à esquerda). Se Moda < Mediana < Média,
a distribuição é assimétrica positiva (à esquerda).

• Medidas de curtose:
Curtose - Característica que expressa o peso das “caudas” de uma distribuição e
o achatamento da sua zona central.
Distribuições mesocúrticas – Distribuições gaussianas.
Distribuições platicúrticas - Distribuições mais achatadas do que a gaussiana.
Distribuições leptocúrticas - Distribuições menos achatadas do que a gaussiana

22
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Tipos de curtose em distribuições simétricas unimodais:

Coeficiente de Curtose de Fisher (kurtosis no SPSS):

Se g3 = 0, a distribuição é mesocúrtica. Se g3 > 0, a distribuição é leptocúrtica. Se

g3 < 0, a distribuição é platicúrtica.

Se |g3 / S.E.| < 2, podemos considerar que o valor do coeficiente de curtose não

se afasta significativamente de 0, pelo que a distribuição é mesocúrtica,


independentemente do sinal de g3. Se |g3 / S.E.| > 2, a distribuição não é mesocúrtica.

No exemplo em estudo... g3 = 0,698

S.E. = 0,394
|g3 / S.E.| = 1,77 à Curtose não significativa; podemos considerar que a distribuição é

mesocúrtica.

• Estatísticas descritivas e formato dos dados:


a) Dados não tabelados;
b) Dados tabelados;
c) Dados tabelados agrupados.
O valor das estatísticas descritivas devia ser idêntico independentemente do
formato em que os dados nos são disponibilizados. No entanto, o agrupamento dos
dados pode levar a distorções devido à perda de informação resultante do
agrupamento.

23
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Dados Tabelados e Dados Agrupados:


O cálculo de estatísticas descritivas a partir de dados não tabelados ou de dados
tabelados (não agrupados) deverá conduzir sempre a resultados idênticos; quando
calculadas a partir de dados agrupados, os procedimentos indicados para calcular as
estatísticas descritivas garantem que o erro devido ao agrupamento seja mínimo.
As fórmulas utilizadas para calcular as diferentes estatísticas descritivas quando
os dados não estão tabelados (por exemplo, as fórmulas dos coeficientes de assimetria
e de curtose) podem ser facilmente adaptadas para a situação de dados tabelados e
dados agrupados.
No caso dos dados tabelados (não agrupados), basta substituir nas fórmulas o
valor Xi por FiXi (multiplica-se o valor de X pela sua frequência respetiva). No casos dos

dados tabelados agrupados, basta substituir Xi por FiX’i, onde X’i representa o ponto

médio da classe i que se vai multiplicar pela frequência da classe.

Comparação das estatísticas descritivas calculadas a partir de dados não agrupados e


agrupados em classes:
A tabela seguinte procede à comparação das estatísticas descritivas calculadas a
partir de dados não agrupados (e a partir de dados tabelados agrupados.
Os dados referem-se à amostra das notas de ingresso (N = 150).

Os procedimentos para calcular as estatísticas descritivas a partir de dados


agrupados garantem valores muito próximos dos obtidos a partir dos dados originais
não agrupados (com exceção da variância e da curtose).

24
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Gráfico de quartis:
Como se constrói um gráfico de quartis (boxplot)?
O gráfico de quartis informa-nos sobre a localização, a dispersão e assimetria da
distribuição da variável, bem como assinala a presença de potenciais outliers na
amostra.
Relação entre um gráfico de quartis e uma
representação gráfica mais tradicional da distribuição.

É constituído por uma “caixa” central e por dois


“bigodes” (daí o seu nome original “box-and-whiskers”). A
construção do gráfico de quartis baseia-se no que se chama
“resumo dos cinco números”, uma forma robusta de
descrever a distribuição de um conjunto de dados:
Mínimo – Quartil 1 – Mediana – Quartil 3 – Máximo
No caso dos dados que temos vindo a analisar, esse resumo é: 0–1–2–3–7

Desenhar a caixa:
A caixa é delimitada inferiormente pelo 1º quartil e superiormente pelo 3º
quartil. A largura da caixa corresponde à AIQ. O traço central da caixa corresponde ao
2º quartil (mediana).
Q3 = 3
Q2 = 2
Q1 = 1

Desenhar os bigodes:
O bigode inferior prolonga-se desde a caixa até ao valor mínimo da amostra
(desde que não seja outlier).
O bigode superior prolonga-se desde a caixa até ao valor máximo da amostra
(desde que não seja outlier).
Como verificar se existem ou não outliers?

25
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Identificação de outliers:
O SPSS assinala os outliers moderados com um círculo:
a) Se X ≥ Q3 + 1,5*AIQ, então X é outlier superior;

b) Se X ≤ Q1 - 1,5*AIQ, então X é outlier inferior.

O SPSS assinala os outliers extremos com uma estrela:


a) Se X ≥ Q3 + 3*AIQ, então X é um outlier extremo superior;

b) Se X ≤ Q1 - 3*AIQ, então X é um outlier extremo inferior.

c) AIQ – amplitude interquartílica (Q3 – Q1).

Se Q1 = 1 e Q3 = 3, então AIQ = 3 – 1 = 2
Limite para existência de outliers (moderados) inferiores: Q1 – 1.5* AIQ = 1 –
1,5*2 = - 2 Como não há valores na amostra iguais ou inferiores a -2, não existem
outliers inferiores.
Limite para existência de outliers (moderados) superiores: Q3+1.5*AIQ=
3+1,5*2=7 Como na amostra existe um valor igual a 7, esse é o único outlier superior
(moderado).

Como se constrói um gráfico de quartis (boxplot)?


a) Desenhar os bigodes;
b) Assinalar o outlier (superior).

O bigode superior prolonga-se da caixa até ao valor


mais alto da amostra que não seja outlier (valor 6)
O bigode inferior prolonga-se desde a caixa até ao
valor mínimo (valor 0).

26
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

ESTATÍSTICA DESCRITIVA BIVARIADA I (DUAS VARIÁVEIS NOMINAIS)


• Objetivos e possibilidades da análise bivariada:
Análise Bivariada:
Análise univariada – analisar uma variável de cada vez (individualmente) ®
apenas informa sobre a distribuição da variável.
Exemplo: Como se distribui a idade na amostra? Qual a idade mais
frequente e a idade mais alta? Qual a sua média e desvio padrão?

Análise bivariada – analisar duas variáveis em conjunto de que modo se


relacionam duas variáveis, verificando se o comportamento de uma se associa de
alguma forma ao comportamento da outra.
Exemplo: diferenças no QI de alunos do secundário associam-se ou não a
diferenças no seu rendimento escolar?

• Tipos de dados:
Ao realizar uma análise bivariada, cada variável pode ter natureza métrica
diferente. Considerando apenas dois tipos de escala de medida (N - nominal e S -
escalar), podem definir-se três cenários possíveis, cada um deles exigindo técnicas
descritivas distintas:
a) Ambas as variáveis são nominais (N x N);
b) Ambas as variáveis são de escala (S x S);
c) Uma das variáveis é nominal e a outra de escala (N x S).

• Duas variáveis nominais:


Caso 1 - Duas variáveis nominais:
Fez-se a pergunta “Gostaria de ser psicólogo?” a uma amostra de 220 estudantes
do final do ensino básico (9o ano), tendo-se simultaneamente registado o sexo do
inquirido.
Variável X – sexo do inquirido (1 - Rapaz, 2 - Rapariga).
Variável Y – resposta (1 - Sim, 2 - Não).
Existirá relação entre estas duas variáveis?

27
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Análise descritiva bivariada:


Técnicas descritivas:
Como resumir a informação distribucional presente na amostra?
a) Tabelas (para dados bivariados nominais);
b) Gráficos (para dados bivariados nominais);
c) Estatísticas descritivas (para dados bivariados nominais).

• Análise descritiva bivariada – tabelas:


Tabulação de dados bivariados:
Tabelas de contingência (tabelas cruzadas; cross-tabulation).

Tabela de contingência com frequências absolutas:

Esta tabela apresenta três distribuições:


a) Distribuição marginal de X;
b) Distribuição marginal de Y;
c) Distribuição conjunta de X e Y (como se distribuem os valores de X em função
dos valores de Y).
Correspondem às distribuições de frequências univariadas de X e de Y.
“Novidade” da análise bivariada.

Distribuição conjunta:
Distribuição conjunta de X e Y (frequências absolutas):

28
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Distribuição conjunta de X e Y (frequências relativas):

Tal como a anterior, esta tabela apresenta também três distribuições:


distribuição conjunta de X e Y, distribuição marginal de X e distribuição marginal de Y.
Nota: estes valores obtêm-se dividindo cada célula da tabela anterior pelo total
N = 220. 9,1% da amostra são rapazes que querem ser psicólogos e 40,9% são raparigas
que não querem ser psicólogos.

Mas existe relação entre o sexo do aluno e o seu interesse em ser psicólogo?
A análise da distribuição conjunta (quer com frequências absolutas quer com
relativas) não permite uma resposta imediata a esta pergunta. É mais fácil de responder
a esta pergunta pela análise das distribuições condicionadas.

Distribuição de Y condicionada a X:

Distribuição das respostas condicionada ao sexo: a distribuição das respostas (Y)


é apresentada para cada um dos sexos (X). Os valores da coluna dos rapazes obtêm-se
dividindo as frequências absolutas dessa coluna pelo valor do total respetivo (20/88 =
0,227 e 68/88 = 0,773). Os valores frequências relativas das raparigas obtêm-se
dividindo as frequências absolutas pelo total da coluna das raparigas (42/132 = 0,318 e
90/132 = 0,682).

Como interpretar esta distribuição condicionada?


22,7% dos rapazes responderam “Sim” e 31,8% das raparigas responderam
“Sim”. Existe, pois uma associação entre o sexo do aluno e o seu interesse em ser
psicólogo: no final do ensino básico, as raparigas parecem estar mais interessadas que

29
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

os rapazes em seguir essa carreira.

Distribuição de X condicionada a Y:

Distribuição dos sexos condicionada à resposta: a distribuição dos sexos (X) é


apresentada para cada uma das respostas (Y). Os valores da linha do “Sim” obtêm-se
dividindo as frequências absolutas dessa linha pelo valor do total respetivo (20/62 =
0,323 e 42/62 = 0,677). Os valores frequências relativas ao “Não” obtém- se dividindo
as frequências absolutas pelo total da linha do “Não” (68/158 = 0,430 e 0/158 = 0,570).
32,3% dos inquiridos que responderam gostar de ser psicólogo eram rapazes e 43,0%
dos que responderam não gostar de ser psicólogo eram rapazes. Os resultados sugerem,
assim, uma associação entre os rapazes e a resposta negativa à pergunta em análise: a
percentagem de rapazes que responde negativamente é superior à percentagem de
rapazes que responde positivamente.
A conclusão da análise desta distribuição tem de ser idêntica à da análise da
distribuição de Y condicionada a X.

Distribuições bivariadas:
A distribuição marginal de X e a distribuição marginal de Y podem ser expressas
através de frequências absolutas ou de frequências relativas.
A distribuição conjunta de X e Y pode ser expressa através de frequências
absolutas ou de frequências relativas.
As distribuições condicionadas apenas podem ser expressas através de
frequências relativas; as distribuições condicionadas são as mais relevantes para
descrever a associação entre duas variáveis nominais através de uma tabela.

30
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Em resumo:
A análise bivariada de variáveis nominais procura avaliar se existe associação entre
as variáveis X e Y. Para isso, é necessário estudar a distribuição simultânea de X e Y
(distribuições conjuntas e/ou distribuições condicionadas). A forma mais direta de fazê-
lo é através de distribuições de frequências relativas, nomeada- mente as distribuições
condicionadas.

• Análise descritiva bivariada – gráficos:


Representação gráfica de dados bivariados nominais:
Gráfico de barras (clustered bar graph):
Verifica-se a incidência da resposta SIM nos rapazes é menor do que nas raparigas.

Este gráfico representa a distribuição da resposta


condicionada ao sexo (por exemplo, as duas barras azuis
somam 100% e correspondem ao total de respostas
masculinas)

Gráfico circular:

Este gráfico representa a


distribuição da resposta condicionada ao
sexo (uma vez que cada circunferência
representa 100% das respostas de cada
sexo); as percentagens referem-se
distribuição conjunta (somam 100%) à
distribuição conjunta (somam 100%).

31
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Gráfico de barras empilhadas (stacked bar graph):

Este gráfico representa a distribuição da


resposta condicionada ao sexo (uma vez que cada
barra soma 100% e representa a distribuição do
tipo de resposta para cada sexo).

• Análise descritiva bivariada – estatísticas descritivas:


Existem inúmeras estatísticas utilizadas para descrever a associação entre duas
variáveis nominais:
a) Odds-ratio;
b) Log-odds;
c) Coeficiente de contingência;
d) Coeficiente phi;
e) Coeficiente V de Cramer, etc.
Quando as variáveis em análise são dicotómicas (tabelas 2 x 2), o valor destes
coeficientes tende a coincidir. No entanto, isso não acontece quando as variáveis
nominais podem assumir mais do que duas categorias (politómicas).

Odds ratio (razão de possibilidades):


Odds ratio (“razão de possibilidades”): medida de associação para variáveis
dicotómicas que se calcula facilmente a partir da tabela de contingência. O conceito de
odds:
O odds de uma variável obtém-se pela divisão da frequência de uma categoria
pela frequência da categoria complementar. Por exemplo, numa turma de 30 crianças,
existem 10 meninos e 20 meninas. 10 meninos para 20 meninas correspondem a um
odds de 10/20 = 1 : 2 = 0,5. 20 meninas
para 10 meninos correspondem a um
odds de 20/10 = 2 : 1 = 2.

32
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Na amostra total de 220 estudantes, o odds da resposta “Sim” face à resposta


“Não” é calculado da seguinte forma:
Odds sim/não = 62 / 158 = 0,39.
Significa que há 62 respostas “Sim” para 158 respostas “Não”. O valor 0,39
representa a comparação quantitativa entre “Sins” e “Nãos”.

O odds pode variar entre 0 e + ∞. Se tomar o valor 1, as duas categorias ocorrem


com igual frequência. Se tomar valor superior a 1, a categoria apresentada em
numerador ocorre mais frequentemente. Se tomar valor inferior a 1, é a categoria do
denominador a mais frequente.
Neste exemplo, como o odds da resposta “Sim” face à resposta “Não” é inferior
a 1, concluiu-se que a resposta “Não” (no numerador) é mais frequente.

NOTA: Podíamos ter calculado o odds da resposta “Não” face à reposta “Sim”
(158/62 = 2,55). O valor é superior a 1, logo predomina a resposta no denominador, ou
seja, a resposta “Não”. Chega-se à mesma conclusão que calculando o odds da resposta
“Sim”.

O odds-ratio (OR) é o quociente de dois odds. O odds-ratio permite avaliar se o


odds de uma categoria de resposta tem igual valor nas duas categorias de outra variável.
No caso em análise, pode interessar saber se o odds da resposta “Sim” (face à
resposta “Não”) tem igual valor nos rapazes e nas raparigas. Se tal acontecer, então a
tendência para responder “Sim” é igual nos dois sexos e não há associação entre a
resposta à pergunta “Gostarias de ser psicólogo?” e o sexo dos estudantes.

Em ambas situações, verifica-se menor tendência para responder “Sim” do que


para responder “Não”, uma vez que o valor do odds calculado foi sempre inferior a

33
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

um. No entanto, o valor das raparigas é maior que o dos rapazes, o que sugere que a
associação à resposta “Sim” é mais intensa neste sexo. O odds-ratio vai reflectir essa
diferença.

O Odds-ratio pode variar entre 0 e + ∞. Se tomar o valor 1, significa que as duas


variáveis não estão associadas (neste caso, significaria que a tendência para responder
“Sim” seria igual nos rapazes e nas raparigas). Se tomar valor superior a 1, significa que
existe associação entre as duas variáveis e que predomina a tendência colocada no
numerador (neste caso significaria que a tendência para responder “Sim” seria maior
nos rapazes do que nas raparigas). Se tomar inferior a 1, significa que existe associação
entre as duas variáveis e que predomina a tendência colocada no denominador (neste
caso significaria que a tendência para responder “Sim” seria maior nas raparigas que nos
rapazes).

No presente caso, OR é diferente de 1, indicando que existe associação entre o


sexo do estudante e o seu interesse pela Psicologia. Como OR < 1, a tendência para
responder “Sim” é maior no grupo colocado no denominador (raparigas): a associação
entre as variáveis resulta de as raparigas terem mais interesse que os rapazes pela
Psicologia.

Notas: Mesmo que se coloque no numerador não o odds dos rapazes, mas sim
o das raparigas, a interpretação do valor de OR irá necessariamente levar à mesma
conclusão. Mesmo que se calcule o OR considerando não o odds de dizer “Sim”, mas o
odds de dizer “Não”, a interpretação do valor de OR irá necessariamente levar à mesma
conclusão. Se as variáveis não forem dicotómicas, é sempre possível recodificá-las de
forma a criar variáveis dicotómicas e aplicar o odds-ratio (basta comparar uma categoria

34
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

com a categoria resultando da reunião das restantes).

Por vezes podemos ficar incertos se o valor do OR se afasta de 1 o suficiente para


afirmarmos com segurança que existe associação entre as duas variáveis. Para facilitar
a interpretação do OR, o SPSS apresenta o respetivo Intervalo de Confiança, que nos
permite decidir se o valor de OR calculado se afasta ou não significativamente de 1.
Como o intervalo de confiança contém o valor 1 (pois vai de 0,340 a 1,170), não se pode
garantir que o OR seja diferente de 1. Portanto, apesar de OR = 0,630, indicador de que
as raparigas parecem mostrar mais interesse do que os rapazes pela Psicologia, a
tendência não parece ser suficientemente forte para garantir que haja associação entre
as duas variáveis.

• Independência entre duas variáveis nominais:


Quando se analisa a relação entre duas variáveis nominais, a principal questão é
saber se as duas variáveis são ou não independentes. A resposta à pergunta “Gostarias
de ser psicólogo?” é independente do sexo do respondente? Ou a resposta depende do
sexo do aluno?

Duas variáveis nominais dizem-se independentes se a pertença a uma categoria


de uma variável não afectar a probabilidade de pertencer à categoria de outra variável.
Se as duas variáveis forem independentes, a distribuição da resposta “Quer ser
psicólogo?” será idêntica para rapazes e para raparigas. Assim, o facto de “ser rapaz”
(ou de “ser rapariga”) não interfere na probabilidade de “querer ser psicólogo”.
Nota: De igual modo, a distribuição do “sexo” condicionada a “querer ser
psicólogo” será igual para os que querem ser psicólogos e para os que não
querem ser.

35
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Representação gráfica da situação de independência:


A percentagem de “sins” em cada grupo (“rapazes” e “raparigas”) é
idêntica. Uma distribuição como esta
significa que as duas variáveis (“sexo” e
“querer ser psicólogo”) são independentes
entre si.

A percentagem de “sim, quero ser


psicólogo” é diferente em cada grupo: entre os
rapazes há menos respostas “sim” (15%) do que
entre as raparigas (40%). Este resultado
significa que as duas variáveis estão associadas: ser rapaz diminui a probabilidade de
responder “sim, quero ser psicólogo”.

Independência ou dependência entre duas variáveis nominais:


Se existir independência entre duas variáveis, não é necessário especificar mais
nada. Se não existir independência, é preciso especificar de que forma as duas variáveis
se relacionam (direção da associação).

• Análise indutiva bivariada:


A questão da independência:
A análise descritiva da forma como as duas variáveis se distribuem em conjunto
(por exemplo, através da distribuição condicional) ajuda a responder à questão da
independência. Mas é importante perceber se as diferenças encontradas apontam para
uma situação real de associação ou, se pelo contrário, refletem apenas desvios
negligenciáveis face à situação de independência.
Para isso, para além desta análise descritiva, é necessária uma abordagem
indutiva, através de um teste de hipóteses (teste do qui- quadrado), que possibilite
avaliar o grau em que as diferenças observadas podem ser explicadas pelo acaso.

36
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

ESTATÍSTICA DESCRITIVA BIVARIADA II – DUAS VARIÁVEIS ESCALARES


• Tipos de dados:
Ambas as variáveis são nominais (N x N).
Ambas as variáveis são de escala (S x S).
Uma das variáveis é nominal e a outra de escala (N x S).

• Duas variáveis de escala:


Caso 2 – duas variáveis de escala:
A extensão do vocabulário dos estudantes universitários afeta o desempenho
académico? O estudo envolveu 60 participantes do 2o ano de uma universidade
pública.

Operacionalização dos conceitos:


Variável X – nível de vocabulário recetivo avaliado através de uma prova (cotação
entre 0 e 40). Variável Y – desempenho académico (avaliada pela classificação média
das cadeiras realizadas no 1º ano).
Existirá relação entre estas duas variáveis? Duas variáveis numéricas em que
ambas tomam um conjunto alargado de valores.

• Caso 2 – duas variáveis de escala:


Técnicas descritivas – Como resumir a informação distribucional presente na amostra?
a) Tabelas;
b) Gráficos;
c) Estatísticas descritivas.

• Tabelar duas variáveis de escala:


Tabulação de dados bivariados:
Como as duas variáveis têm uma gama alargada de valores, é necessário agrupar
os dados em classes. Recorre-se aos procedimentos de agrupamento já estudados no
caso univariado. A regra de Sturges recomenda, para uma amostra 60 observações, que

se usem 6 classes (26 = 64 > N).

37
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Tabelas de contingência para dados agrupados:

Distribuição conjunta (frequências absolutas). A partir desta tabela podem-se


calcular as distribuições de frequências relativas (conjuntas e condicionadas).

Tabulação de dados bivariados (distribuição condicionada):

Distribuição do Desempenho. Académico condicionada ao nível de Vocabulário.

• Duas variáveis de escala – gráficos:


Representação gráfica de dados bivariados:

38
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Histograma bivariado (estereograma):


Generalização do histograma para dados bivariados.

Polígono de frequências bivariado (frequency surface plot):

Diagrama de dispersão (scatter plot):


O primeiro gráfico de dispersão para
dados bivariados foi criado por Galton (1885),
para representar a relação entre a altura dos
filhos e a altura dos progenitores.
Cada ponto corresponde a uma
observação da amostra; ao conjunto chama-se
“nuvem de pontos”. Pode haver pontos sobrepostos. Neste gráfico pode ser inserida
informação adicional sobre cada observação.
Nota: Não se deve usar com dados agrupados.

39
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Pelo facto da nuvem de pontos ter


uma forma grosseiramente linear, com
inclinação positiva, podemos suspeitar que
existe um relação entre as duas variáveis.

A inexistência de observações nos


quadrantes em que vocabulário e desempenho têm
sentido contrário (por exemplo, vocabulário baixo e
desempenho alto) apoia a ideia de que a relação entre as duas variáveis é positiva
(valores elevados de uma variável associam-se a valores elevados da outra variável).
A relação entre as duas variáveis pode
ser representada por uma linha que atravessa a
nuvem de pontos (reta de regressão, desenhada
com recurso do SPSS). A inclinação da reta
reflete a natureza da associação entre as duas
variáveis (positiva).

• Estatística descritiva para duas variáveis de escala:


Estatísticas descritivas:
A associação entre duas variáveis numéricas é designada “correlação” e é
preferencialmente expressa pelo coeficiente de correlação. Existem diversos
coeficientes de correlação:
a) Coeficiente de correlação linear de Pearson;
b) Coeficiente de correlação ordinal de Spearman;
c) Coeficiente de correlação ordinal de Kendall.
O coeficiente de correlação linear de Pearson (r) expressa a intensidade e o
sentido da relação linear que existe entre duas variáveis numéricas. Os seus valores
variam entre - 1 e + 1.

40
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Coeficiente de correlação linear de Pearson:


No presente caso, o valor do coeficiente de correlação de Pearson é: Xi = 846;
Xi2 = 14760; Yi = 722,9; Yi2 = 9762,71; Xi Yi = 11044,3; N = 60

rXY =+0,4931=+0,49

Como interpretar o coeficiente de correlação?

Como interpretar o sinal do coeficiente de correlação?


Se o coeficiente for positivo (r > 0), as variáveis variam no mesmo sentido (ou
seja, valores elevados de uma variável estão associados a valores elevados da outra
variável; valores baixos de uma variável estão associados a valores baixos da outra
variável).
Se o coeficiente for negativo (r < 0), as variáveis variam em sentido
inverso (valores elevados de uma variável estão associados a valores baixos da
outra variável).
Se o coeficiente tiver valor 0 (r = 0), não existe relação linear entre as duas
variáveis.

41
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Como interpretar a magnitude do coeficiente de correlação?


Se o coeficiente tiver valor 0 (r = 0), não existe relação linear entre as duas
variáveis. Quanto mais próximo de 1 for o valor absoluto do coeficiente, mais intensa é
a relação linear entre as duas variáveis.

Classificação possível dos níveis da correlação (Franzblau, 1958):


Se | r | < 0,20, a correlação é negligenciável. Se 0,20 < | r | < 0,40, a correlação
é fraca. Se 0,40 < | r | < 0,60, a correlação é moderada. Se 0,60 < | r | < 0,80, a
correlação é forte. Se | r | > 0,80, a correlação é muito forte.

Uma interpretação do coeficiente de correlação:


A magnitude do coeficiente de correlação de Pearson pode ser interpretada em
termos da variação de uma variável que é explicada pela variação da outra variável.
Assim, o quadrado de r indica em que a percentagem da variância de uma variável que
é explicada pela variância da outra.

r2 = 0,492 = 0,24
Que significa este valor? Que significa dizer que o Vocabulário explica 24% da
variância do Desempenho?
O valor obtido indica que apenas 24% da variância de uma variável (por exemplo,
a variância da nota escolar) é explicada pela variância da outra variável. Significa
também que 76% da variância da nota escolar se deverá a outros fatores que não o nível
de vocabulário do sujeito.
Este valor dá-nos uma ideia palpável da força da associação entre as duas
variáveis. Estas ideias serão melhor desenvolvidas ao estudar os métodos de regressão
linear (especialmente útil para explorar os 76% de variância que ficam por explicar).

• Relação linear e relação não linear:


Relação linear entre duas variáveis:
O coeficiente de correlação de Pearson mede a intensidade da relação linear
entre duas variáveis quantitativas. Mas o que é uma relação linear?

42
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Coeficiente de correlação de Spearman:


Coeficiente de correlação:
O coeficiente de correlação de Spearman ( rs ) expressa a intensidade e o sentido

da relação monótona que existe entre duas variáveis numéricas. Os seus valores variam
entre - 1 e + 1.
Para que o coeficiente de correlação de Spearman tome valor 1 não é necessário
que a relação seja linear: basta que as duas sequências de dados evoluam no mesmo
sentido (relação monótona).

• Pearson vs. Spearman:


O coeficiente de Pearson avalia a intensidade e sentido da relação linear entre
duas variáveis; pode ser aplicado a dados não lineares, mas neste caso o seu valor não
irá refletir corretamente a intensidade da relação que existe entre as variáveis.

43
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

O coeficiente de Spearman avalia a intensidade e sentido da relação monótona


entre duas variáveis; pode ser aplicado a dados lineares e não lineares; no entanto, não
leva em conta a natureza escalar das variáveis em estudo (assume que as variáveis estão
medidas numa escala ordinal).
Quando a relação entre as variáveis não é monótona, nenhum destes
coeficientes irá refletir corretamente a intensidade da relação.

Como se calcula os coeficientes de correlação de Spearman?


O coeficiente de correlação de
Spearman é calculado não a partir dos
dados reais mas sim das suas ordens
(ranks); por isso, é também conhecido
como coeficiente de corelação ordinal.

• Gráfico de dispersão e correlação:


Scatter plot e relação linear:

44
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Scatter plot e relação mónotona:

• Coeficiente de correlação no SPSS:

NOTA – Para além do valor de r, o SPSS fornece ainda informação adicional


quanto à sua significância estatística, indicando se podemos estar ou não seguros de
que na população de onde veio a amostra a correlação não é nula.

45
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Estatística indutiva e coeficiente de correlação:


Matriz de correlações:
Se pedirmos a correlação
entre diversas variáveis, o SPSS
dispõe a informação numa matriz de
correlações, que possibilita
visualizar a relação entre cada par de
variáveis.

• Coeficiente de correlação no SPSS:


Matriz de correlações:

Propriedades da matriz de correlações.


A informação presente na matriz de correlações é redundante:
a) As células da diagonal principal têm o valor 1 (valor da correlação de cada
variável consigo própria);
b) Uma vez que a correlação é uma medida simétrica, as células abaixo da diagonal
correspondem a células acima da diagonal (por exemplo, a correlação da idade
com o vocabulário é idêntica à correlação do vocabulário com a idade).

• Interpretação da correlação:
Factores que afectam a correlação:
a) Intensidade da relação que existe entre as duas variáveis;
b) Natureza da relação (linearidade, por exemplo).
Presença de erro nas variáveis (fiabilidade das medidas): a presença de erro na

46
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

medição das variáveis diminui o valor da correlação entre elas (por exemplo, embora se
espere que PESO e ALTURA estejam correlacionados, se uma das variáveis for medida
de forma incorreta a relação poderá atenuar-se ou desaparecer).

Restrições à variância de cada variável:


A redução da amplitude de variação das variáveis atenua fortemente o valor da
correlação; por exemplo: numa escola com alunos todos eles provenientes do mesmo
meio socioeconómico é de esperar que a correlação entre o nível socioeconómico das
famílias e o desempenho escolar da criança seja menor do que numa escola em que haja
maior variabilidade no meio socioeconómico dos alunos (ou seja, em amostras
heterogéneas a correlação manifesta mais claramente o seu valor real).

Efeito de restrições à variância na correlação:

Interpretação de uma correlação.

Correlação não implica causalidade:


A existência de associação entre duas variáveis é muitas vezes interpretada como
sendo sinal de causalidade entre elas. No entanto, correlação não implica ligação causal
entre variáveis (embora o inverso possa ser verdade).

Situações em que existe correlação mas não há causalidade:


a) Correlação espúria;
b) Sentido da influência;
c) Causalidade e correlação.

47
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

O caso da relação espúria:


A correlação entre duas variáveis pode dever-se ao facto de ambas estarem
relacionadas com uma terceira variável que não está a ser considerada e não a uma
relação de causalidade entre as variáveis.
Por exemplo: mesmo que haja correlação entre a frequência da catequese por
crianças e a sua honestidade (não mentir), isso não significa que seja a catequese a causa
da honestidade. A associação poderá resultar de ambos os comportamentos se deverem
ao tipo de educação que recebem em casa.

O problema do sentido da influência:


Mesmo que exista causalidade, a correlação não determina o sentido dessa
causalidade (o que é que causa o quê?). Por exemplo, será o vocabulário que determina
o desempenho académico ou será o desempenho académico que determina o nível de
vocabulário?

Ausência de correlação não implica ausência de causalidade:


Por exemplo, correlação entre o número de horas de estudo e desempenho num
teste. Mesmo que essa correlação seja nula numa determinada amostra, tal poderá
dever-se a uma heterogeneidade de situações que um estudo mais cuidadoso pode
esclarecer (por exemplo, estudantes mais inteligentes podem estudar pouco e ainda
assim terem resultados moderados; estudantes menos brilhantes podem estudar muito
e ter resultados moderados).

As correlações devem ser interpretadas com cuidado. O significado da correlação


entre duas variáveis deve sempre ser analisado à luz do enquadramento teórico do
estudo e dos efeitos potenciais de outras variáveis não consideradas.

48
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

ESTATÍSTICA DESCRITIVA BIVARIADA III – VARIÁVEL NOMINAL X VARIÁVEL ESCALAR


• Tipos de dados bivariados:
a) Ambas as variáveis são nominais (N x N).
b) Ambas as variáveis são de escala (S x S).
c) Uma das variáveis é nominal e a outra de escala (N x S).

• Caso 3 – Variável nominal x Variável de escala:


Existem diferenças em termos de aptidão espacial entre rapazes e raparigas que
frequentam um curso de design gráfico?
Variável X – sexo do inquirido (1 - Masculino, 2 - Feminino). Variável nominal
(dicotómica).
Variável Y – resultado num teste de aptidão espacial (pontuação entre 0 e 50).
Variável escalar.

Técnicas descritivas:
Como resumir a informação distribucional presente na amostra?
a) Tabelas;
b) Gráficos;
c) Estatísticas descritivas.

• Caso 3 – Tabelas:
Tabulação:

É necessário agrupar em classes a variável escalar. Regra de Sturges: 25 > 60 →


5 classes.

Tabela de contingência (frequências absolutas):

Nestes casos, a distribuição condicionada à variável nominal é sempre a mais

49
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

interessante de ser analisada.


Distribuição da aptidão espacial condicionada ao sexo do inquirido:

Verifica-se, por exemplo, que 68% dos indivíduos do sexo masculino têm aptidão
espacial igual ou superior a 26, enquanto tal só se verifica em 26% dos indivíduos do
sexo feminino.
Os dados sugerem, assim, uma associação entre o sexo e o nível de aptidão
espacial.

• Caso 3 – Gráficos:
Gráfico de quartis por sexo:
Verifica-se que os rapazes têm, em geral, níveis de
aptidão espacial mais elevados do que as raparigas.
Nota: A variável nominal vai dividir a amostra
total em subgrupos; no nosso exemplo, a variável sexo
vai dividir a amostra em dois subgrupos. A representação
gráfica deste tipo de dados consiste em ilustrar cada um
destes subgrupos num gráfico conjunto.

Gráfico de médias (por sexo) (means plot):


A média da aptidão espacial nos rapazes é
superior à das raparigas.
Atenção à escala das ordenadas! Em geral, o SPSS
define escalas que maximizam as diferenças entre
barras, criando gráficos potencialmente
enganadores.

50
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Gráfico de médias com barras de erro:


A barra de erro indica o intervalo de flutuação da
média (neste caso, as barras correspondem ao “intervalo
de confiança a 95% para o valor médio”); como os
intervalos de cada sexo não se sobrepõem, pode-se
assegurar (com 95% de certeza) que rapazes e raparigas
têm níveis médios de aptidão espacial diferentes.

Gráfico de dispersão (scatter plot):


Apesar de dar informação sobre a variabilidade
dentro de cada grupo, o gráfico de dispersão é pouco
adequado para dados desta natureza (devendo ser
substituído pelos gráficos de quartis).

O ajustamento de uma reta à “nuvem” de


pontos (que passa obrigatoriamente pela média de
cada sexo) indica que os rapazes têm, em média,
desempenhos mais altos do que as raparigas na
aptidão espacial.

Gráfico de linhas (means plot):


Um gráfico de médias apresenta a média da
variável quantitativa para cada um dos grupos
definidos pela variável nominal.

Mais uma vez, nestes gráficos é fundamental ter atenção à escala das ordenadas,

51
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

para que a informação visual não seja enganadora (comparar os dois gráficos, que
apresentam os mesmos dados). Os gráficos de linhas são ainda criticados por darem
uma falsa ideia de continuidade relativamente aos valores da variável nominal.

• Caso 3 – Estatísticas Descritivas:


Encontrar uma medida adequada para avaliar a associação entre uma variável
numérica e uma variável nominal é menos simples que nos casos anteriores:
a) Se a variável X for dicotómica (variável nominal que toma apenas dois valores),
é possível calcular o denominado coeficiente de correlação bisserial por pontos
(rbp).
b) Se a variável X for politómica (variável nominal não dicotómica, tomando mais
de dois valores) existem abordagens alternativas que não vamos referir (medidas
de associação para variáveis qualitativas, coeficiente de correlação intra-classe,
etc).

Coeficiente de correlação bisserial por pontos:


No presente caso, a variável nominal é dicotómica, podendo-se calcular o
coeficiente de correlação bisserial por pontos: rbp = – 0,446
Para calcular este coeficiente recorre-se à fórmula do coeficiente de correlação
de Pearson (idem para o SPSS). Sendo um coeficiente de correlação, o valor de rbp varia
entre – 1 e + 1, indicando o valor 0 ausência de relação entre as duas variáveis.

Como interpretá-lo?
Não tendo a variável X natureza numérica, a interpretação do sinal do coeficiente
de correlação bisserial por pontos não é imediata. O seu significado depende da
codificação numérica arbitrária que se utilizou para a variável nominal.
No presente caso, utilizou-se o código “1” para designar o sexo masculino e o
código “2” para designar o sexo feminino. O sinal negativo do coeficiente indica que
valores altos da variável numérica se associam a valores baixos da variável nominal.
Assim, sabemos que os indivíduos do sexo masculino (código “1”) estão associados aos
valores mais altos de aptidão espacial enquanto os indivíduos do sexo feminino (código

52
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

“2”) estão associados aos valores mais baixos.

E quando a variável nominal não é dicotómica?


Exemplo (variável nominal tricotómica) Estudar a associação entre a orientação
política e a atitude face ao aborto. Utilizou-se uma amostra de 84 estudantes
universitários.
Variável X – Orientação política (direita, centro, esquerda).
Variável Y – Atitude face ao aborto (de 0 a 20).

• Caso de variável nominal não dicotómica:


Tabulação de dados bivariados com variável nominal tricotómica:

Representação gráfica quando a variável nominal é tricotómica:

A representação gráfica bivariada quando a variável nominal tem mais do que


duas categorias (não dicotómica) é análoga às representações para o caso de variável
nominal dicotómica – gráficos de quartis e gráficos de médias (linhas ou barras).

53
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Estatísticas descritivas quando a variável nominal não é dicotómica:


Nestes casos não se pode utilizar o coeficiente de correlação bisserial pro pontos.
Existem medidas descritivas para avaliar a associações entre variáveis de escala e
variáveis nominais politómicas.
Podem-se ainda calcular medidas de associação (do tipo coeficiente de
contingência) entre a variável nominal e a variável quantitativa agrupada em classes; no
entanto, esta solução não permite levar em conta a informação numérica quantitativa.

• Análise descritiva bivariada – Um resumo das técnicas privilegiadas:


a) Ambas as variáveis são nominais (N x N). Tabelas de contingência / Gráficos
circulares ou de barras (percentagens) / Odds-ratio (variáveis dicotómicas);
b) Ambas as variáveis são de escala (S x S). Gráfico de dispersão / Coeficiente de
correlação;
c) Uma variáveis é nominal e a outra de escala (N x S). Tabela de contingência
(uma variável agrupada) / Gráficos de quartis ou de barras (médias) / Coeficiente
de correlação bisserial por pontos (se a variável nominal for dicotómica).

ESTATISTICA DESCRITIVA MULTIVARIADA


• Dados multivariados:
Univariados – Analisa-se cada variável isoladamente.
Bivariados – Analisa-se a relação entre duas variáveis.
Multivariados – Analisa-se a relação simultânea entre três ou mais variáveis.

Dados multivariados:
Numa amostra de dados multivariados, cada observação é caracterizada
simultaneamente por mais do que duas variáveis. Existe uma grande diversidade de
situações multivariadas:
a) Na situação mais simples, as variáveis são todas da mesma natureza (por
exemplo, todas nominais);
b) O mais frequente é encontrar uma mistura de variáveis de diferente natureza –

54
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

variáveis nominais (sexo), intervalares (resultados em testes psicológicos),


ordinais (preferências), etc.

Abordagem a dados multivariados:


Reduzir a dimensionalidade dos dados. Eliminar o máximo possível da
redundância informativa presente nas variáveis e pôr em evidência apenas a informação
essencial (recorre-se a técnicas de análise fatorial, análise de agrupamentos,
escalonamento multidimensional, análise de regressão múltipla, modelos lineares, etc.;
a maior parte destas técnicas são abordadas em cursos avançados de Estatística, ao nível
do 2o ou do 3o ciclo). Análise gráfica.

Estratégia gráfica:
A partir dos gráficos bivariados, é possível construir gráficos multivariados
adicionando informação relativa a uma ou mais variáveis.
Esta estratégia só é útil se o número de variáveis se mantiver reduzido (a
representação simultânea de cinco ou mais variáveis torna impraticável a interpretação
de um gráfico).

• Variáveis nominais e escalares:


Duas variáveis escalares e uma variável nominal:

Gráfico de dispersão (vocabulário versus


velocidade de leitura) com indicação do sexo
indivíduo.
Ao gráfico anterior
adicionou- se a reta de
regressão para cada grupo, para pôr em evidência as
diferenças entre sexos. A relação entre Vocabulário e
Velocidade parece ser semelhante em ambos os sexos (as
duas retas são paralelas), mas as raparigas apresentam velocidades de leitura
superiores.

55
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Gráfico de dispersão (vocabulário versus


velocidade de leitura) com indicação do grupo de
pertença do indivíduo (sexo e nível de escolaridade).

Duas variáveis escalares e duas variáveis nominais:


Gráfico de dispersão (vocabulário
versus velocidade de leitura) com indicação do
sexo do indivíduo e discriminado em função
do nível de escolaridade (em painel)

• Variáveis de escala:
Três variáveis escalares:
Gráfico de dispersão a três dimensões.
Interpretação difícil. Pode ainda ser acrescentada
informação de variáveis nominais (mudando a cor ou a
forma do ponto).

Bubble graph:
Gráfico de dispersão a duas
dimensões (QI versus autoavaliação); a
terceira variável (média escolar) está
representada pela dimensão do ponto.
Através da cor do ponto, pode ainda ser
adicionada informação relativa a uma
variável nominal (por exemplo, o sexo do
aluno).

56
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

• Situações complexas:
Situação multivariada complexa:
Estudo sobre a relação do consumo
de álcool com variáveis psicológicas e
sociodemográficas em 600 estudantes de
Psicologia da UCLA em 1983.
O gráfico representa sete variáveis:
a) Eixo dos xx: extroversão (traço de
personalidade);
b) Eixo dos yy: disponibilidade de
álcool (número de locais visitados pelo sujeito onde é consumido álcool);
c) Eixo dos zz: género sexual (sexo masculino à esquerda e sexo feminino à
direita);
d) Espessura dos quadrados: população de origem;
e) Preenchimento dos quadrados: desinibição (traço de personalidade);
f) Inclinação dos quadrados: grau em que o álcool é usado como forma de lidar
com o stress (expressa-se pelo grau de inclinação do quadrado para dentro do
gráfico);
g) Cor: consumo de álcool mo mês anterior (consumo crescente: cinzento – não
consomem, verde, amarelo, vermelho, magenta, azul – maiores
consumidores).

Entre outras coisas, o gráfico mostra que:


a) Os homens (à esquerda) consomem mais álcool que as mulheres;
b) Ambos os sexos tendem a ser extrovertidos;
c) Os maiores consumidores masculinos frequentam, mais que os restantes
sujeitos, locais onde o álcool está facilmente disponível (portanto, existe entre
homens uma associação entre o consumo e a exposição ao álcool);
d) Os consumidores masculinos mais pesados usam mais que os restantes o álcool
como forma de lidar com os seus problemas.

57
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Matriz de gráficos de dispersão (draftman’ s plot):


Matriz de gráficos de dispersão (scatter plot matrix):
Base de dados relativa a características técnicas de automóveis (consumo,
cilindros e potência do motor, aceleração, peso do carro, ano de fabrico, país de origem).
Apesar de não ser um gráfico multivariado, uma vez que as diferentes variáveis
são analisadas duas a duas, permite ter uma perceção da relação que cada variável em
estudo estabelece com todas as outras. É o equivalente gráfico da matriz de correlações.
Existe uma relação não linear
negativa e clara entre o peso do automóvel
(weight) e o seu consumo (milhas que faz por
galão de combustível, MPG).
Representa-se aqui a dispersão da
potência do automóvel (horsepower) em
função da variável nominal origem (EUA,
Europa, Japão). Os EUA é o mais cujos carros têm maior variação na potencia do
motor.
Na diagonal, representa-se a relação de cada variável consigo mesma (o que
resulta sempre numa linha recta).

Gráfico de radar (radar plot):


Permite caracterizar uma
observação multivariada (quantitativa); por
exemplo, apresentar o perfil de um indivíduo
em termos de cinco dimensões da
personalidade.

Este tipo de gráfico permite ainda


representar conjuntos de observações; por
exemplo, apresentar o perfil médio de cada sexo
numa amostra em termos de cinco dimensões da
personalidade.

58
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Glifos (glyphs):
Glyphs são os elementos de um gráfico
(correspondentes aos pontos do scatter plot) que
veiculam informação multivariada sobre cada
observação graficada, em função de atributos como a
cor, a forma, o tamanho, a posição.
Exemplos: starplot, sunflower plot, faces de Chernoff.

Gráfico de dispersão simples com glifos:


Para além de ser um scatter plot
tridimensional, as observações são ainda
caracterizadas em função da cor e da forma dos
pontos (glifos), permitindo assim veicular
simultanemanete informação sobre diversas
variáveis e ajudar a identificar conjuntos
homogéneos de observações (no gráfico,
evidenciam-se facilmente subconjuntos de observações com base na cor).

Sunflowers plot:
Neste scatter plot, utilizam-se glifos em
forma de flor, representando as pétalas o número
de observações sobrepostas no gráfico num
determinado ponto.

Star plots:
Semelhante ao radar plot: cada uma das variáveis que caracterizam uma
observação são representadas pelos braços da estrela.
Permite a identificação global de observações semelhantes ou diferentes.

59
ESTATISTICA I
2º SEMESTRE, 1º ANO
APONTAMENTOS

Os dados referem-se ao tipo de despesas por


agregado familiar nos diferentes países da CE. A
representação a amarelo é a média da CE. Verifica-se,
por exemplo, que as despesas da Bélgica e da
Finlândia se aproximam-se muito do perfil da CE; pelo
contrário, na Grécia têm um padrão de despesas
diferente; Portugal e Hungria parecem ter perfis
semelhantes.

Faces de Chernoff:
Neste tipo de gráfico, cada observação (ou
grupo de observações) é caracterizada por uma face;
diferentes características da face (curvatura da boca,
inclinação das sobrancelhas, tamanho dos olhos, forma
do rosto, etc) são usadas para exprimir visualmente os
valores de diferentes variáveis. Atendendo à nossa
facilidade para reconhecer faces e estabelecer semelhanças entre elas, está técnica
permite avaliar de forma global a semelhança entre as observações a partir da
parecença física das faces.
Neste mapa da cidade de LA, é fácil identificar as
zonas onde existem mais fontes de stress urbano
(representado pelas sobrancelhas franzidas ou não),
mais desemprego (representado pelo sorriso), maior
riqueza (representada pela forma do rosto) e maior
proporção de população branca (representada pela cor
da face). Permite ainda identificar associação entre as
variáveis (por exemplo, as zonas “mais negras” são
também as mais pobres, onde há mais desemprego e
stress urbano).

60

Você também pode gostar