Você está na página 1de 12

Indicadores numéricos

Nas aulas anteriores falámos num primeiro conjunto de


ferramentas usadas pela Estatística Descritiva para resumir e
descrever um conjunto de dados − tabelas e gráficos.

Outro conjunto de ferramentas que permite caracterizar um


conjunto de dados é constituído pelas medidas numéricas ou
características amostrais. Estas podem agrupar-se em:
medidas de localização;
medidas de dispersão e
medidas de assimetria.

que iremos estudar:


Medidas de localização
média, mediana, quantis e moda

Manuela Neves - ISA - 07/08 – p. 13/24


A média. Propriedades
Considere-se x1 , x2 , ...xn , uma amostra de n observações.

Definição Chama-se média aritmética, média empı́rica ou


simplesmente média e representa-se por x a
Pn
x1 + x2 + x3 + · · · + xn i=1 xi
x= =
n n
Propriedades da média

Sejam x1 , x2 , ..., xn observações cuja média é x e considere-se


yi = a + bxi , i = 1, ..., n.
As observações transformadas y1 , y2 , ..., yn têm média
y = a + bx.
Se x1 , ..., xn são n observações de média x e
y1 , ..., ym são m observações de média y,
nx+my
a média das n + m observações é dada por .
n+m
Manuela Neves - ISA - 07/08 – p. 14/24
A mediana e a moda
Duas outras medidas de localização são a mediana e a moda.
Definição A mediana é o valor que divide a amostra, depois de
ordenada, em duas partes com o mesmo número de observações
cada. Pode ser assim calculada

 x( n+1 )

 n ímpar
2
x̃ =
x + x(n/2+1)
 (n/2)

 n par
2
onde x(1) ≤ ... ≤ x(n) são as observações ordenadas
correspondentes à amostra x1 , ..., xn .

Definição A moda, mo, é a observação mais frequente, se existir.


Caso discreto → é o valor que ocorre com maior frequência.
Caso contínuo → só faz sentido definir-se sobre dados agrupados
→ é um valor do intervalo de classe com maior frequência (ver
medidas para dados agrupados)
Manuela Neves - ISA - 07/08 – p. 15/24
Os quantis empı́ricos
Se considerarmos a amostra ordenada dividida em quatro partes,
cada uma com o mesmo número de observações, os pontos da
divisão chamam-se quartis empı́ricos ou apenas quartis e costumam
representar-se por Q1 , Q2 e Q3 . É claro que Q2 ≡ x̃.
Definição (generalização do conceito dado acima) Chama-se
quantil de ordem θ, (0 ≤ θ ≤ 1), o valor Q∗
θ tal que há uma proporção θ
de observações inferiores ou iguais a Q∗θ e uma proporção (1 − θ)
de observações maiores ou iguais a esse valor. Uma fórmula de
cálculo pode ser
 (n θ) + x(n θ+1)
 x
n θ inteiro
Q∗θ = 2
x([n θ]+1) n θ não inteiro

onde [n θ] designa o maior inteiro contido em n θ.

Nota: Q∗0.25 ≡ Q1 ; Q∗0.5 ≡ Q2 e Q∗0.75 ≡ Q3

Manuela Neves - ISA - 07/08 – p. 16/24


Medidas de localização − dados agrupados
Dados agrupados em c (c < n) classes (ou grupos) com
′ ′ ′
x1 , x2 , ..., xc pontos médios de cada classe (ou valores de cada
grupo)
n1 , n2 , ..., nc as frequências absolutas de cada classe (ou grupo)
′ ′ ′ Pc ′
n1 x1 + n2 x2 + · · · + nc xc n x
i i
Média agrupada = x̃ = = i=1
n n
A moda amostral para dados agrupados:
determina-se a classe modal → classe com maior frequência.
Existem várias fórmulas para calcular a moda, vamos aqui
considerar:
fk+1
mo ≃ xmink + h
fk−1 + fk+1
onde fk−1 e fk+1 designam, respectivamente, a frequência da
classe anterior e posterior à classe modal.

Manuela Neves - ISA - 07/08 – p. 17/24


Medidas de localização − dados agrupados

Quantil de ordem θ :

Identifica-se a primeira classe cuja frequência relativa


acumulada seja superior ou igual a θ −→ seja k essa classe e
Fk a frequência relativa acumulada correspondente.
Uma das fórmulas usadas para determinar o quantil de ordem
θ é:
∗ min θ − Fk−1
Qθ ≃ xk + h
fk
com Fk−1 −→ frequência relativa acumulada da classe anterior
à classe k e xmin
k −→ limite inferior da classe k.

Nota: A mediana para dados agrupados obtém-se considerando na


fórmula acima θ = 0.5.

Manuela Neves - ISA - 07/08 – p. 18/24


Indicadores de dispersão

Amplitude Total Atot = max(xi ) − min(xi )


Amplitude inter-quartil AIQ = Q3 − Q1 .
Pn 2
(x i − x)
Variânciaa s2x = s2 = i=1
n−1

Desvio padrão sx = s= Variância

Outra fórmula de cálculo da variância:

x2i
P P 2
2 n − ( xi )
s =
n(n − 1)

a
Vamos considerar esta definição de variância

Manuela Neves - ISA - 07/08 – p. 19/24


Variância e desvio padrão
Propriedades

s2x ≥ 0
Sejam x1 , ..., xn , n observações com variância s2x e
considere-se yi = a + bxi , i = 1, ..., n.
As observações transformadas têm como variância
s2y = b2 s2x .
Para o desvio padrão tem-se sy = |b|sx .

No caso de dados agrupados a variância pode calcular-se como:


Pc ′ 2
Pc ′2
2 i=1 (xi − x̃) ni i=1 xi ni 2
s̃x = = − x̃
n n

Manuela Neves - ISA - 07/08 – p. 20/24


A caixa de bigodes

Um modo gráfico que permite facilmente interpretar a localização e


a dispersão de um conjunto de dados, efectuando em simultâneo a
sua síntese −→ o diagrama de extremos e quartis ou caixa de bigodes

Neste gráfico podem ainda identificar-se observações que se


afastam do padrão geral dos dados - são candidatos a outliers.
Existem vários critérios para classificar uma observação como um
outlier

Definição Um valor xi é um candidato a outlier se


xi < BI ou xi > BS
sendo BI – barreira inferior e BS barreira superior

BI = Q1 − 1.5(Q3 − Q1 ) BS = Q3 + 1.5(Q3 − Q1 )

Manuela Neves - ISA - 07/08 – p. 21/24


A caixa de bigodes
Como desenhar uma caixa de bigodes?
Marcar o valor adjacente inferior −→ é o menor valor do conjunto dos
dados (podendo ser o mı́nimo) maior ou igual à barreira inferior;
Marcar o valor adjacente superior −→ é o maior valor do conjunto dos
dados (podendo ser o máximo) menor ou igual à barreira superior.
Marcar a mediana, primeiro e terceiro quartis (que vão permitir
desenhar uma “caixa”) e marcar os candidatos a “outliers”
Ver o seguinte exemplo:
Exemplo Caixa de bigodes referente os dados do exemplo 2.

2 4 6 8 10 12

Manuela Neves - ISA - 07/08 – p. 22/24


Caixas de bigodes paralelas

Quando se pretende comparar várias amostras, o recurso a caixas


de bigodes paralelas é uma ferramenta muito útil, permitindo de
forma fácil obter uma primeira interpretação e comparação dos
conjuntos de dados.

Exemplo As seguintes caixas de bigodes referem-se a um


conjunto de dados InsectsSprays disponíveis no package
datasets do R. São contagens de insectos em unidades agrícolas
experimentais, às quais foram aplicados 6 tipos de insecticidas.

Referência: Beall, G., (1942) The Transformation of data from entomological field
experiments, Biometrika, 29, 243;262.

Manuela Neves - ISA - 07/08 – p. 23/24


Caixas de bigodes paralelas

InsectSprays data

25
20
Insect count

15
10
5
0

A B C D E F

Type of spray

Manuela Neves - ISA - 07/08 – p. 24/24

Você também pode gostar