Você está na página 1de 37

Estatística descritiva

Descrição das distribuições


através de números
Licenciatura em Psicologia
Edição 2022-2023
Métodos Estatísticos: Fundamentos
Descrição das distribuições através de números

Tópicos
Variáveis Qualitativas Variáveis Quantitativas
Diagramas derivados da Análise
• Medidas de tendência central • Medidas de tendência central Exploratória de Dados (AED)
– Moda – Média Aritmética
– Média Truncada/Aparada a 5%
• Medidas de dispersão ou de – Mediana
• Diagrama de caule-e-folhas
variabilidade • Diagrama de extremos e quartis, ou
– Moda
– Razão de variação, v
• Medidas da forma • Medidas de dispersão ou de Caixas-de-bigodes
variabilidade
Não aplicável
– Amplitude Total
– Amplitude C90-C10
– Amplitude Interquartílica
– Variância e o Desvio-Padrão
– Coeficiente de Variação (CV)
• Medidas da forma
– Medidas de Assimetria
– Medidas de Curtose/Achatamento

J. M. Tomás Silva - FPCEUC 2022-2023 2


Estatísticas Descritivas: Sumários numéricos

Propriedades Numéricas
dos dados

Localização/Posição
Forma Tendência Central Variabilidade
não-central

Assimetria Amplitude Scores z, T


Média Total

Achatamento/ Mediana Amplitude


Curtose Interquartílica Quantis

Moda Variância/Desvio-
padrão

J. M. Tomás Silva - FPCEUC 2022-2023 3


Medidas de Tendência Central
Média (aritmética), Média ponderada, Média aparada, Mediana e Moda

J. M. Tomás Silva - FPCEUC 2022-2023 4


A média aritmética, M, 𝑥ҧ

A descrição de uma distribuição quase sempre inclui uma medida do seu


centro. A mais comum destas medidas é a média aritmética, ou simplesmente, média.

Denotando-se n observações por x1, x2,..., xn, a sua média é


x1 + x2 +  + xn
x=
n
ou em notação mais compacta,

x=
x i

J. M. Tomás Silva - FPCEUC 2022-2023 5


• A média aritmética ponderada,
xp

Por vezes, ao descrevermos uma distribuição precisamos de atribuir um peso diferente às


distintas observações. Nesse caso, temos de calcular a média ponderada, pesada, ou
combinada.
Denotando-se n observações por x1, x2,..., xn e, os respectivos pesos, por p1, p2, ..., pn a
média ponderada é
p1 x1 + p2 x2 +  + pn xn
xp =
p1 + p2 + ... + pn
ou em notação mais compacta,

xp =
px i i

p i

J. M. Tomás Silva - FPCEUC 2022-2023 6


• A(s) média(s) aritmética(s) truncada(s) ou aparadas, e.g., x5%

• A média é muito útil para comparar várias populações/amostras, ou para


descrever como uma variável evolui ao longo do tempo. Infelizmente pode,
também, ser muito pouco fiável se a população não é homogénea (por
exemplo, se existem uns quantos valores extremos).
• Para evitar este problema, podemos calcular a média truncada/aparada.
• Como fazer? Eliminamos os valores mais extremos (% desejada) e apenas
calculamos a média para os restantes. Deve-se indicar a percentagem de
valores aparados.
• No SPSS um dos procedimentos produz a média aparada a 5%, o que quer
dizer que ignoramos 5% dos dados mais afastados do centro (de ambos os
lados da distribuição), calculando-se a média para os restantes registos (i.e.,
os 90% remanescentes).

J. M. Tomás Silva - FPCEUC 2022-2023 7


Mediana, mdn*
A mediana é definida como o “valor da variável que ocupa a posição central da
sucessão de observações ou na distribuição de frequências” (Reis, 1996, p. 78).

Para achar a mediana de uma distribuição:

1. Ordene todas as observações, da menor para a maior (ou vice-versa).

2. Se o número n de observações é ímpar, a mdn é a observação do centro dessa lista


ordenada. Determine a localização da mediana contando (n+1)/2 observações a
partir do começo da lista.

3. Se o número n de observações é par, a mdn é a média das duas observações


centrais na lista ordenada. A localização da mdn é ainda (n+1)/2 a contar do
começo da lista.

*Ao contrário da média aritmética não há uma notação uniforme para esta estatística. Nas publicações psicológicas é frequente
usar-se a palavra mediana (em itálico).

J. M. Tomás Silva - FPCEUC 2022-2023 8


Moda, Mo*

A moda caracteriza a modalidade ou modalidades, no caso de igualdade, com o maior


efetivo. A moda é, por outras palavras, a modalidade da variável estudada que se
obtém com maior frequência.

*Não há uma notação uniforme para esta estatística. Nas publicações psicológicas é frequente usar-se a palavra moda (em
itálico).

J. M. Tomás Silva - FPCEUC 2022-2023 9


Medidas de Variabilidade
Razão de variação, amplitude total, variância, desvio-padrão

J. M. Tomás Silva - FPCEUC 2022-2023 10


Medidas de Dispersão (variáveis qualitativas)
• A razão de variação

Não existem muitas medidas de dispersão para variáveis qualitativas. A razão de


variação diz-nos se uma grande proporção dos dados está concentrada na
categoria modal, ou se está dispersa por todas as outras categorias. A razão de
variação é definida como:

nº de entradas fora da classe modal


v=
nº total de entradas

J. M. Tomás Silva - FPCEUC 2022-2023 11


A razão de variação (Cálculo)

Cidade Grupos linguísticos Percentagem


Mo (A) = Inglês
Cidade A Francês 30%
Mo (B) = Inglês
Inglês 34%
Chinês 20%
(30 + 20 + 16 )
Outro 16% v( A) = = .66
100
Total 100%
(28 + 20 + 12 )
v( B) = = .60
100
Cidade B Francês 28%
Inglês 40%
Conclui-se que a cidade A é mais
Chinês 20% heterogénea linguisticamente que a
Outro 12% cidade B.
Total 100%

J. M. Tomás Silva - FPCEUC 2022-2023 12


Medidas de Dispersão (variáveis quantitativas)
Amplitude Total
A amplitude total, A, ou simplesmente amplitude, é apenas a diferença entre o valor x máximo e o
valor x mínimo observado:

A = xmax − xmin

Nota: Alguns textos preferem calcular a amplitude total utilizando uma fórmula
ligeiramente diferente (admitindo que a variável é contínua):

A = xmax − xmin + 1

Nota importante: Se nada for dito em contrário, neste curso, usaremos a


primeira fórmula.

J. M. Tomás Silva - FPCEUC 2022-2023 13


Variância e o Desvio-padrão (Inferencial)
A variância e o desvio-padrão medem a dispersão tomando em consideração o grau de
afastamento das observações da respectiva média.

A variância s2 de um conjunto de observações é a média dos quadrados dos desvios das


observações a respeito da sua média. Em notação estatística, a variância de n
observações x1, x2,..., xn é

(x1 − x )2 + (x2 − x )2 +  + (xn − x )2


s2 =
n −1

ou, em forma mais compacta,


 (x − x)
2

=
2 i
s
n −1

J. M. Tomás Silva - FPCEUC 2022-2023 14


O desvio-padrão, s, é a raiz quadrada da variância s2:

(
 ix − x )2

s=
n −1
A fórmula da variância (e do desvio padrão) pode ser alterada algebricamente com
o intuito de facilitar os cálculos (mas hoje, quando as calculadoras e computadores
são tão comuns, estas fórmulas raramente são necessárias):
( x ) 2
( x ) 2

 x2
i−
n
i
 x −2
i
i

s2 = s= n
n −1 n −1

✓O numerador da fração de qualquer das fórmulas apresentadas acima


denomina-se Soma dos Quadrados dos Desvios (SDQ). Esta quantidade
será, frequentemente, utilizada noutras técnicas estatísticas mais avançadas.
✓O denominador da fração contém os graus de liberdade, gl (em inglês,
degrees of freedom, df).

J. M. Tomás Silva - FPCEUC 2022-2023 15


Variância e Desvio-Padrão (versões descritiva e
Populacional)
• Quando trabalha com populações (algo raro!) ou quando o seu interesse é exclusivamente descrever a dispersão de
uma amostra concreta, as fórmulas anteriores sofrem uma ligeira alteração no denominador; em vez de n – 1 usará N
(i.e., efetivo da amostra) como divisor.
• Variância Descritiva/Populacional
σ 𝑥𝑖 −𝜇 2
• s2 = 𝜎2 = 𝑁
• Desvio-Padrão Descritivo/Populacional
• s = 𝜎 = 𝜎2

1. Note que nas fórmulas acima usámos letras gregas, μ e σ;


2. N.B. Neste curso a fórmula inferencial será usada, se nada for dito em contrário!

J. M. Tomás Silva - FPCEUC 2022-2023 16


Coeficiente de Variação

• Uma medida absoluta de dispersão, por vezes dada como


percentagem.
𝑠
• 𝐶𝑉 =
𝑥ҧ
𝑠
• 𝐶𝑉% = × 100
𝑥ҧ
• Em princípio deve ser usado apenas com variáveis de nível
proporcional ou de razão.

J. M. Tomás Silva - FPCEUC 2022-2023 17


Medidas de Localização/Posição
Não Centrais
Quantis

J. M. Tomás Silva - FPCEUC 2022-2023 18


Quantis
•As medidas de posição são usadas, preferencialmente,
para variáveis quantitativas, medidas no nível
intervalar/razão. Podem, ainda, ser usadas com variáveis
medidas no nível ordinal. Não são usadas com medidas
nominais.

•Basicamente oferecem-nos um modo de determinar


como um registo individual se compara com todos os
outros. Genericamente, designam-se por quantis, mas
alguns deles têm nomes específicos (e.g., Quartis, Decis,
Percentis/Centis.)

J. M. Tomás Silva - FPCEUC 2022-2023 19


Quartis
•A medida de posição mais simples é o
quartil.
•Se ordenarmos os dados de forma
ascendente de acordo com a sua
magnitude, os quartis são os valores
que dividem a população ordenada em
quatro grupos iguais.
•Ou seja, 25% da população/amostra tem
um resultado menor ou igual ao 1º
quartil (Q1), 50% tem um resultado
menor ou igual ao 2º quartil (Q2), e 75%
tem um resultado inferior ao 3º quartil Fonte: Bryman e Cramer (2005)

(Q3). A mediana é, por definição, o 2º


quartil.

J. M. Tomás Silva - FPCEUC 2022-2023 20


Decis, Centis/Percentis

• De modo semelhante, podemos


definir os decis: dividem a
população em dez grupos iguais.
• Todavia, a medida de posição
mais comum, é o (per)centil. Os
dados são ordenados em função
do seu tamanho e divididos em
100 grupos iguais.

J. M. Tomás Silva - FPCEUC 2022-2023 21


Medidas de dispersão baseadas nos
quantis
Amplitude Interquartílica (AIQ, ou Q), Amplitude Semi-Interquartílica (ASI)

J. M. Tomás Silva - FPCEUC 2022-2023 22


Amplitude Interquartílica (ou Interquartis), Q

Q = Q3 − Q1

• Onde, Q3 e Q1 são, respetivamente, o terceiro e o primeiro


quartis (ver medidas de posição definidas anteriormente.)
• O terceiro quartil é o valor que tem abaixo de si 75% das
observações e 25% acima de si. O primeiro quartil, por sua
vez, separa 25% das observações inferiores das restantes
75%.

J. M. Tomás Silva - FPCEUC 2022-2023 23


Amplitude Semi-Interquartílica (ou, Interquartis), ASI

Alguns autores preferem calcular uma medida próxima


da referida anteriormente, a Amplitude Semi-
Interquartílica (ASI):
Q3 − Q1
ASI =
2

J. M. Tomás Silva - FPCEUC 2022-2023 24


Medidas da Forma da Distribuição
Assimetria e Curtose (ou Achatamento)

J. M. Tomás Silva - FPCEUC 2022-2023 25


Medidas da Forma da Distribuição (Simetria ou
Enviesamento e Achatamento ou Curtose)

• Para além das medidas anteriores podemos ainda descrever a


forma geral da distribuição de uma variável quantitativa tomando
em consideração duas características adicionais: (as)simetria e
curtose (ou achatamento).

J. M. Tomás Silva - FPCEUC 2022-2023 26


Simetria/Assimetria

Simétrica
• Uma distribuição diz-se simétrica se a média (aritmética) divide o
histograma em duas metades iguais, uma constituindo a imagem
em espelho da outra. Uma distribuição simétrica típica é a
distribuição normal.
• A curva normal, por exemplo, tem uma assimetria de 0 (zero). Se
a assimetria é maior do que 1, a forma da distribuição começa a

Assimétrica
afastar-se significativamente da curva normal.
• Se a distribuição não é simétrica, diz-se assimétrica! O que quer
dizer que um dos lados do gráfico da distribuição é mais alongado
do que o outro. A distribuição é assimétrica positiva (fig. A) se o
alongamento tende a ocorrer no lado direito e é assimétrica
negativa (fig. B) se o alongamento ocorrer predominantemente do
lado esquerdo.

J. M. Tomás Silva - FPCEUC 2022-2023 27


Curtose/Achatamento
• Esta é uma medida que descreve o grau de achatamento ou afunilamento da
curva da distribuição. O seu valor diz-nos se a curva tende a ser muito
afunilada/pontiaguda (e.g., com um pico), com uma elevada proporção dos
dados aglomerados junto do centro, ou achatada, com os dados espalhando-se
ao longo de uma grande amplitude da variável.
• A distribuição normal tem uma curtose igual a 0 (zero). A curva normal diz-se
mesocúrtica.
• Um valor positivo indica que os dados estão concentrados no centro e que a
distribuição apresenta um forte pico/elevação nesse lugar (neste caso, diz-se
que a distribuição é leptocúrtica). Um valor negativo indica que os dados estão
dispersos e que a distribuição é mais achatada do que a curva normal (diz-se
que a distribuição é platicúrtica). Valores de curtose superiores a 1 indicam que
a curva não é mesocúrtica.

J. M. Tomás Silva - FPCEUC 2022-2023 28


Distribuições aproximadamente simétricas e
mesocúrticas – critério de decisão convencional
ASSIMETRIA
Na prática se o coeficiente se situa no intervalo [-1,+1], considera-se a
distribuição aproximadamente simétrica.
CURTOSE
Na prática se o coeficiente se situa no intervalo [-1,+1], considera-se a
distribuição aproximadamente mesocúrtica (ou normal).
Nota:
Esta opinião não é consensual! Alguns autores usam valores mais conservadores, considerando que valores no
intervalo ±0.5 corresponderiam a distribuições praticamente normais (simétricas ou mesocúrticas). Neste curso
seguimos a proposta de Bryman & Cramer (1990), ou seja, os primeiros valores deste slide. Mas, veja-se Kline
(1998, tb. citado por Marôco, 2018, p. 22), sugerindo que valores absolutos inferiores a 3 (assimetria) e a 7
(curtose) não são problemáticos em análises estatísticas com modelos lineares generalizados.

J. M. Tomás Silva - FPCEUC 2022-2023 29


Diagramas derivados da Análise Exploratória
de Dados
• Diagrama de caule-e-folhas (stem-and-leaf)
• Diagrama de extremos-e-quartis, ou caixas-de-bigodes (box-and-whiskers)

J. M. Tomás Silva - FPCEUC 2022-2023 30


Stem-and-Leaf Plot (Diagrama de Caule-e-Folhas)
(vide http://davidmlane.com/hyperstat/desc_univ.html)

• Os gráficos/diagramas de caule-e-folhas são úteis para apresentar a


frequência com que certas classes ou valores ocorrem;
• O “caule”/ “Stem” são os valores da coluna mais à esquerda e que
contém o dígito dominante (e.g., classe dos 20, 30, 40, etc.);
• As “folhas”/ “Leaves” são as listas na(s) colunas mais à direita e contêm
os “trailing digits”.

J. M. Tomás Silva - FPCEUC 2022-2023 31


Stapel, Elizabeth. "Stem-and-Leaf Plots." Purplemath. Available from
. Acedido em 6 de Outubro de 2021.

• Considere a seguinte lista de valores (ordenados):

12, 13, 21, 27, 33, 34, 35, 37, 40, 40, 41.

Pode construir uma distribuição de frequências em classes e o respetivo histograma:

J. M. Tomás Silva - FPCEUC 2022-2023 32


• A partir da lista de valores:
12, 13, 21, 27, 33, 34, 35, 37, 40, 40, 41.
Também pode construir um stem-and-leaf plot (o qual permitirá reconstituir a
série original de valores)

J. M. Tomás Silva - FPCEUC 2022-2023 33


Box-and-Whisker Plots
(vide http://davidmlane.com/hyperstat/desc_univ.html)

• O gráfico oferece-nos um bom sumário visual da coleção de observações


• Baseado no sumário de 5 números (mínimo, Q1, mdn (Q2), Q3 e máximo)
• Pode incluir outros elementos (vide fig.) que complexificam a apresentação, mas que, por outro
lado, permitem analisar aspectos adicionais do padrão existente (e.g., outliers). Para isso as
noções de barreiras (interior e exterior), valores adjacentes, são importantes:
• H-spread (amplitude interquartílica, Q);
• As barreiras internas correspondem à distância de 1.5 [step] x Q, localizadas a partir das “hinges”
(dobradiças de Tukey); não são desenhadas na figura;
• As barreiras externas (também não são desenhadas) e localizam-se a 2 “steps” x Q, contando a
partir das “hinges”;
• Valores outliers moderados estão fora da barreira interior (representados por “o”); valores outliers
extremos estão fora da barreira exterior (representados por “*”);
• Valor adjacente superior: maior valor observado imediatamente abaixo da barreira interior
superior;
• Valor adjacente inferior: menor valor observado imediatamente acima da barreira interior inferior.

J. M. Tomás Silva - FPCEUC 2022-2023 34


DESCRIÇÃO DE DISTRIBUIÇÕES
POR MEIO DE NÚMEROS
Sumário

J. M. Tomás Silva - FPCEUC 2022-2023 35


Estatísticas para sumariar os dados tendo em conta o nível de
medida da variável
Nível de Medida
Tipo de Estatística Nominal Ordinal Intervalar
Medida de tendência Moda Mediana Média
central

Medida de dispersão Razão de Amplitude, amplitude Variância,


variação decílica, amplitude Desvio
interquartílica padrão
Forma _ Não são abordadas neste Assimetria
curso Curtose

Nota: Medidas apropriadas para variáveis situadas num nível de medida inferior
(e.g., nominal) podem ser usadas para variáveis de nível mais elevado (e.g.,
ordinal ou intervalar).

J. M. Tomás Silva - FPCEUC 2022-2023 36


Referências
• Cohen, B. H. & Lea, R. B. (2004). Essentials of statistics for the social and behavioral
sciences. Hoboken, NJ: Wiley. [Chapter One]
• Bryman, A. & Cramer, D. (1993). Análise de dados em ciências sociais. Introdução às
técnicas do utilizando o SPSS. Porto: Celta.
• Marôco, J. (2018). Análise estatística com o SPSS Statistics (7ª ed.). Pêro Pinheiro:
ReportNumber. [Ler: pp. 16-32]
• Reis, E. (1996). Estatística descritiva. Lisboa: Edições Sílabo.
• (recursos online:
• Hyperstat online: http://davidmlane.com/hyperstat/desc_univ.html
• Free Statistics and Forecasting Software: https://www.wessa.net/)

J. M. Tomás Silva - FPCEUC 2022-2023 37

Você também pode gostar