Escolar Documentos
Profissional Documentos
Cultura Documentos
DADOS ESTATÍSTICOS
1.1 Introdução
1
adquirido a um determinado fornecedor, com base numa amostra aleatória
retirada desse lote; a estimação dos parâmetros desconhecidos de um modelo
de regressão linear múltipla a partir de um determinado conjunto de dados, a
obtenção de intervalos de confiança para esses parâmetros e a realização de
testes de hipóteses sobre os parâmetros ou combinações lineares destes.
2
Exemplos de colecções de dados:
• o preço de 1 Kg de laranjas num determinado hipermercado em 20
dias sucessivos do mês de Fevereiro de 2009;
• o volume de vendas de 50 empresas da indústria transformadora em
Janeiro de 2009;
• o rendimento mensal de 100 famílias da cidade de Braga em
Dezembro de 2008.
3
Além das duas categorias de dados anteriores, convém apresentar mais duas
que são derivadas daquelas:
• Dados seccionais combinados - alguns conjuntos de dados têm
aspectos seccionais e temporais. Diz-se que se tem um conjunto de
dados seccionais combinados (pooled cross sections) quando se
juntam vários conjuntos de dados seccionais, cada um referente a
certa data. Por exemplo: as despesas e receitas de uma amostra de 200
famílias num determinado ano e as despesas e receitas de uma
amostra de 250 famílias cinco anos mais tarde. Neste caso, as
entidades observadas nas diferentes datas podem não ser as mesmas.
• Dados de painel – Em muitas situações os dados disponíveis referem-
se a um conjunto fixo de entidades observadas em várias datas. Neste
caso, diz-se que se tem um conjunto de dados de painel ou dados
longitudinais (por exemplo: as despesas e receitas de uma amostra
fixa de 200 famílias ao longo de vários anos). O aspecto fundamental
dos dados de painel é que o conjunto de dados a observar é sempre o
mesmo para todas as observações temporais, o que, muitas vezes,
dificulta a sua obtenção.
4
Exemplos de populações:
• o conjunto das famílias da cidade de Braga em Fevereiro de 2009;
• o conjunto das empresas da indústria transformadora em Janeiro de
2009;
• o conjunto dos eleitores nas eleições para a Assembleia da República
em Fevereiro de 2005.
5
casual. No extremo oposto, quando a escolha da amostra é feita apenas por
critérios arbitrários do investigador, a amostragem diz-se dirigida. Os
métodos estatísticos não permitem analisar a qualidade dos resultados
obtidos a partir deste último tipo de amostras.
6
1. No caso das escalas nominais pode, por exemplo, fazer-se:
{homem, mulher} {0, 1}, {fumador, não fumador}} {0,
1}. Note-se que a atribuição destes valores não tem qualquer
significado quantitativo, é apenas uma codificação numérica
das várias modalidades;
2. No caso das escalas ordinais pode, por exemplo, fazer-se:
{trabalhador não especializado, semi-especializado, especiali-
zado, muito especializado} {1, 2, 3, 4}. Naturalmente, numa
escala ordinal a numeração é feita de forma a respeitar a ordem
das várias modalidades.
Qualquer que seja o atributo considerado, o seu valor numérico pode variar
de elemento para elemento observado da amostra. Devido a este facto
representam-se estes valores por uma variável que designaremos por x. Se a
amostra observada tem n elementos, ou seja, tem dimensão n, tem-se
7
x1, x2 , ..., xn
onde xi (i = 1, 2, ..., n) é o valor do atributo na i-ésima observação.
8
a1 , a2 , ..., a j , ...,
a sucessão disposta por ordem crescente dos valores possíveis que a variável
x pode assumir. O conjunto de valores da sucessão chama-se domínio da
variável x, e representa-se por A. Nos casos mais correntes tem-se uma
sucessão de números inteiros.
F1 , F2 , ..., F j , ...,
verificando-se, obviamente
j Fj =n
Fj
fj = .
n
Tal como em relação às frequências absolutas, obtém-se a sucessão das
frequências relativas
f1 , f 2 , ..., f j , ...,
verificando-se obviamente,
j f j = 1.
9
Geralmente, quando se fala simplesmente em frequência quer significar-se
frequência relativa.
10
Para a classificação dos valores ser feita sem ambiguidade é necessário que
os intervalos de classe não tenham pontos em comum, isto é,
I j ∩ Ik = ∅ , j≠k.
Por outro lado, para não ficarem valores por classificar, o domínio A da
variável deve ser igual à união de todos os intervalos,
m
A= I
j =1 j .
( ]
I1 = (l0 , l1],..., I j = l j −1, l j , ..., I m = (lm−1, lm ] ,
11
A amplitude da j-ésima classe é dada por,
h j = l j − l j −1 ( j = 1, 2, ..., m).
Quando não haja inconveniente e tal seja possível, devem tomar-se classes
com amplitude constante, h j = h ( j = 1, 2, ..., m) , propriedade que pode tornar
12
Classes de colesterol Frequências absolutas Frequências relativas
( Fj ) ( fj)
13
Um problema que se põe na construção de tabelas de distribuições de
frequências é qual o número de classes que se deve escolher. Por um lado,
quando se classificam as observações de uma variável contínua perde-se
necessariamente informação, pois deixa de conhecer-se a variabilidade
dentro de cada classe. Por outro lado, quando se classificam os dados num
número excessivo de classes, acontece que o número total de observações
não é suficiente para pôr em evidência a eventual regularidade do fenómeno.
Deve, pois, optar-se por uma solução de compromisso, não sendo possível
dar instruções objectivas sobre o número de classes a considerar.
14
A representação gráfica de distribuições de frequências de variáveis
contínuas é obtida por meio de um diagrama de áreas, o histograma,
formado por uma sucessão de rectângulos adjacentes.
soma das áreas é h. Como se pode sempre supor h=1 (trata-se meramente de
uma questão de escala), neste caso, é indiferente dizer que a área ou a altura
de cada rectângulo é igual à respectiva frequência relativa.
15
1.4 Características numéricas: média e desvio padrão
x1 + x2 + ... + xn 1 n
x= = i =1 xi .
n n
Sempre que possível, para não desprezar informação, a média deve ser
calculada a partir dos dados originais. No entanto, se apenas se dispõe das
distribuições de frequências, torna-se necessário recorrer à hipótese básica
da tabulagem, que consiste em atribuir a todas as observações de uma
determinada classe o valor dado pelo ponto médio desta, x′j ( j = 1, 2, ..., m) ,
isto é
1 l j −1 + l j
x′j = l j −1 + hj = .
2 2
16
A natureza do erro que assim se comete, chamado erro de tabulagem, deve
ser tida em conta quando se analisam os resultados. Note-se que é
importante não confundir os pontos médios das m classes, x1′ , x2′ , ..., xm′ , e os n
valores originais da colecção {x1, x2 , ..., xn } . Neste caso, a média é uma
média ponderada tomando as frequências relativas como pesos. Tem-se
1 m m
x= j =1 F j x′j = j =1 f j x′j .
n
17
No caso de estarmos a considerar os dados originais, a moda, representada
18
frequências. Quando a medida de localização usada é a média, esta deve ser
tomada para referenciar a dispersão das observações. Assim, neste caso, uma
medida de dispersão deve sintetizar o comportamento do conjunto de
desvios em relação à média. Uma vez que, como vimos acima, a soma dos
desvios em relação à média é nula, podem tomar-se os quadrados dos
desvios para não haver compensação entre desvios positivos e negativos.
Assim, quando consideramos a média dos quadrados dos desvios em relação
à média,
1 2
s2 = n
i =1 (xi − x ) ,
n
obtém-se a variância da colecção de dados ou da amostra.
1 2 1 2
s=+ n
i =1 (xi − x ) e s′ = + n
i =1 (xi − x ) .
n n −1
19
Quando se dispõe apenas de dados classificados, as expressões anteriores
são adaptadas tendo em conta a hipótese básica da tabulagem. Obtêm-se
assim, respectivamente, as seguintes expressões para a variância e para a
variância corrigida:
s2 =
1
n
m
j =1 F j (x′j − x )2 = m
j =1 f j (x′j − x )2 ,
s′ 2 =
1
n −1
m
j =1 F j (x′j − x )2 = n n− 1 m
j =1 f j (x′j − x )2 .
m
s2 = j =1 f j x′j 2 − x 2 .
20
Exemplo – Calcule-se a variância e o desvio padrão nos exemplos dos
valores do colesterol e das SAU das explorações agrícolas.
21
A partir das estatísticas de ordem podem ser definidas outras características
numéricas da colecção de dados. É dada particular importância à mediana,
que é a principal concorrente da média como medida de localização. De
forma aproximada, a mediana, que se representa por M, é o valor da
colecção que tem 50% de observações inferiores e 50% de observações
superiores. Em termos rigorosos, a mediana pode definir-se da seguinte
maneira:
x( k +1) se n = 2k + 1
M= .
( x( k ) + x( k +1) ) 2 se n = 2k
22
Exemplo – Considere o quadro abaixo com os montantes em euros de 36
facturas escolhidas ao acaso, emitidas por um supermercado de um
determinado bairro. Calcule a média, a mediana e a moda dos montantes das
facturas.
10 25 37 53 74 58
13 25 38 58 80 63
15 30 39 58 82 64
21 32 39 58 88 40
23 34 41 70 250 15
24 35 48 70 254 20
23
De seguida, vai apresentar-se um procedimento para calcular os quantis
quando se dispõe de uma colecção ordenada de dados em que x(1) e x( n ) são
de ordem α é qα = x(r ) .
1 + (n − 1)α = r + ε ,
qα = x( r ) + ε ( x( r +1) − x( r ) ) = (1 − ε ) x( r ) + ε x( r +1)
24
No caso particular dos quartis tem-se:
Mediana: M (n + 1) 2
3º quartil: Q3 (3n + 1) 4
25
colecção são representados pelos segmentos inferior e superior (“os
bigodes”) desenhados no exterior do rectângulo. A caixa nos seus limites
horizontais, isto é, entre o 1º e 3º quartis, contém 50% das observações. As
caixas-de-bigodes prestam-se a comparações quando as variáveis em estudo
se exprimem nas mesmas unidades.
l j −1 ≤ qα ≤ l j e f j*−1 ≤ α ≤ f j*
f j* − f j*−1 α − f j*−1
= ,
l j − l j −1 qα − l j −1
26
ou, notando que f j* − f j*−1 = f j e l j − l j −1 = h j ,
fj α − f j*−1
= ,
hj qα − l j −1
obtém-se:
α − f j*−1
qα = l j −1 + hj .
fj
27
Casos típicos de distribuições assimétricas positivas são as distribuições
dos rendimentos das famílias de uma dada cidade ou país. Nestas
distribuições há uma grande proporção de famílias que têm rendimentos
relativamente baixos enquanto, por outro lado, há uma pequena percentagem
de famílias que têm rendimentos elevados e que se distribuem por um
intervalo de grande amplitude. Como consequência, nestas situações, os
rendimentos muito elevados “puxam” a média para cima tornando-a bastante
maior que a mediana. Digamos que, nestas distribuições, a média dá uma
visão demasiado optimista do bem-estar do conjunto das famílias em estudo.
Nestes casos é preferível utilizar a mediana como valor representativo da
distribuição.
28
1.6 Outliers
29
Os valores Q1 − 3(Q3 − Q1 ) e Q3 + 3(Q3 − Q1 ) são as chamadas barreiras
externas inferior e superior, respectivamente; os valores
Q1 − 1.5(Q3 − Q1 ) e Q3 + 1.5(Q3 − Q1 ) são as barreiras internas inferior e
superior, respectivamente.
30
Exercício – Considere a distribuição de 500 empresas de um sector de
actividade segundo os resultados líquidos de 2006 dada na tabela abaixo.
31
1.7 Correlação
Cada uma das duas características observadas pode, como se sabe, ser de
tipo qualitativo ou de tipo quantitativo. Neste ponto vamos só tratar o caso
em que ambas as características são de tipo quantitativo.
32
Exemplo – Na tabela abaixo apresentam-se os valores do produto interno
bruto (PIB) e das importações de Portugal para o período 1979-1996,
expressos em milhões de contos, a preços constantes de 1993. Construa-se o
diagrama de dispersão dos valores do PIB e das importações.
33
Aqui, não estamos interessados em estudar relações determinísticas entre
duas variáveis, como por exemplo a existente entre o perímetro de uma
circunferência e o raio do círculo correspondente ( C = 2π R ), mas sim
relações estatísticas. Estas relações não têm um carácter tão preciso como
as relações determinísticas. Assim, por exemplo, não se pode dizer que a um
determinado valor do PIB corresponde com toda a certeza um determinado
valor das importações, mas podemos dizer que quanto maior for o PIB,
maiores serão, em média, as importações. Também não podemos dizer que a
determinado preço de um produto corresponde uma determinada quantidade
procurada do produto. No entanto, podemos dizer que, em geral, quanto
maior for o preço, menor será, em média, a quantidade procurada.
34
Suponha-se que existe uma relação estatística entre duas variáveis e que se
pretende medir a intensidade da respectiva correlação. Tal como se definiu o
conceito de variância para medir a dispersão de uma colecção de dados de
uma variável, torna-se necessário dispor de um outro conceito que permita
medir a variação conjunta de duas variáveis. Este conceito é o de
covariância da colecção de observações de um par de variáveis, e é definido
da seguinte maneira:
1 n
s xy = i =1 ( xi − x )( yi − y ) .
n
Temos pois que a covariância é a média dos produtos dos desvios das
observações das variáveis x e y em relação às suas médias.
35
O cálculo da covariância pode ser feito de forma mais operacional através da
seguinte fórmula alternativa:
1 n
s xy = i =1 xi yi −xy.
n
e y.
36
Importa referir que o coeficiente de correlação mede o grau de associação
linear entre as variáveis. Enquanto o sinal do coeficiente indica se a
correlação é positiva ou negativa, o seu valor absoluto mede a intensidade da
associação linear.
(3,7); (5,5); (10,2); (3,9); (5,6); (10,5); (3,6); (5,6); (10,1); (3,10); (5,7);
(10,4); (3,5); (5,6); (10,4).
37
a) Construa o diagrama de dispersão destas observações e comente a relação
existente entre o custo de envio e o tempo que demora a entrega das
encomendas.
b) Calcule o coeficiente de correlação entre os custos de envio e os tempos
de entrega das encomendas.
38
assim, podemos dizer que existe uma correlação espúria entre as duas
variáveis. Neste caso, a explicação para o valor de r é o facto de, quer o PIB,
quer a idade do Presidente, dependerem de uma mesma terceira variável: o
tempo.
Nº de sinistros Nº de apólices
0 96978
1 9240
2 704
3 43
4 9
>4 0
Total 106974
39
Exercício – Considere uma colecção de observações {x1, x2 , ..., xn } . Suponha
que se adiciona a mesma constante, c, a cada uma das observações. Obtenha
a média, a mediana, a variância e os quartis da colecção referente aos dados
transformados em função das mesmas características da colecção original.
40