Você está na página 1de 40

1.

DADOS ESTATÍSTICOS

1.1 Introdução

Quando um gestor pretende estudar um fenómeno relevante para a


actividade da sua empresa em termos empíricos, começa por recolher os
dados sobre esse fenómeno que considera relevantes. Quando o objectivo
final do gestor é apenas descrever esse fenómeno, ele recorre às técnicas da
Estatística Descritiva para extrair a informação que necessita dos dados. De
facto, se o objectivo é apenas descrever o fenómeno, basta calcular algumas
medidas que sumariem a informação contida nos dados e elaborar alguns
gráficos que permitam tirar conclusões acerca das estruturas e padrões
patentes nos dados.

No entanto, se os objectivos finais são, como muitas vezes acontece,


explicar, fazer previsões, ou mesmo, tomar decisões referentes ao fenómeno
em causa, o gestor necessita de aprofundar a análise estatística dos dados
recorrendo à Inferência Estatística.

A Inferência Estatística, também designada por Estatística Indutiva ou


Estatística Matemática, parte do pressuposto de que os dados são uma
amostra de uma população mais vasta e fornece um conjunto de conceitos
e técnicas que permitem extrapolar conclusões tiradas a partir da amostra
para a população, ou seja, que permitem efectuar inferências indutivas. São
exemplos de inferências indutivas: a realização de um teste de hipóteses para
decidir sobre a aceitação ou a rejeição (devido à não verificação de
determinados requisitos) de um grande lote de unidades de um produto,

1
adquirido a um determinado fornecedor, com base numa amostra aleatória
retirada desse lote; a estimação dos parâmetros desconhecidos de um modelo
de regressão linear múltipla a partir de um determinado conjunto de dados, a
obtenção de intervalos de confiança para esses parâmetros e a realização de
testes de hipóteses sobre os parâmetros ou combinações lineares destes.

O facto de se estar a extrapolar para o geral conclusões tiradas a partir do


particular leva a que não se possam efectuar inferências indutivas exactas. A
toda a inferência indutiva está associado um determinado grau de incerteza.
Este grau de incerteza é medido em termos de probabilidade. Assim, a
Inferência Estatística fundamenta-se na Teoria da Probabilidade,
necessitando decisivamente dela no seu desenvolvimento.

No ponto 1 do programa de IAG serão leccionados alguns conceitos básicos


da Estatística Descritiva. A Teoria da Probabilidade na sua acepção mais
vasta, isto é incluindo o estudo das variáveis aleatórias discretas e contínuas
mais importantes, será desenvolvida nos pontos 2, 3, 4 e 5 deste programa.
No ponto 6 do programa será feito o estudo de alguns aspectos da
amostragem. Os principais métodos da Inferência Estatística serão
leccionados na unidade curricular Métodos de Previsão Para a Gestão.

1.2 População e amostra

Dá-se o nome de colecção de dados a um conjunto de observações de


certo(s) atributo(s), qualquer que seja a forma como foram recolhidas.

2
Exemplos de colecções de dados:
• o preço de 1 Kg de laranjas num determinado hipermercado em 20
dias sucessivos do mês de Fevereiro de 2009;
• o volume de vendas de 50 empresas da indústria transformadora em
Janeiro de 2009;
• o rendimento mensal de 100 famílias da cidade de Braga em
Dezembro de 2008.

As duas categorias básicas de dados são as seguintes:


• Dados temporais - os dados são temporais ou cronológicos quando
as observações se referem a uma mesma entidade em vários
momentos ou períodos de tempo (por exemplo: o PIB português nos
últimos 20 anos, o volume de prémios de seguros de vida emitidos por
uma seguradora durante os últimos 10 anos, etc). Uma característica
importante dos dados temporais é a sua ordem cronológica, podendo
falar-se em passado, presente e futuro. Outro aspecto importante é a
frequência temporal das observações, ou seja, interessa saber se os
dados são observados numa base diária, semanal, mensal, trimestral,
anual, etc.
• Dados seccionais - os dados são seccionais quando as observações se
referem a determinadas entidades em certo momento ou período de
tempo (por exemplo: o volume de vendas de 50 empresas da indústria
transformadora em Janeiro de 2009, o rendimento mensal de 100
famílias da cidade de Braga em Dezembro de 2008, etc). Um aspecto
fundamental dos dados seccionais é que a ordem das observações é
irrelevante.

3
Além das duas categorias de dados anteriores, convém apresentar mais duas
que são derivadas daquelas:
• Dados seccionais combinados - alguns conjuntos de dados têm
aspectos seccionais e temporais. Diz-se que se tem um conjunto de
dados seccionais combinados (pooled cross sections) quando se
juntam vários conjuntos de dados seccionais, cada um referente a
certa data. Por exemplo: as despesas e receitas de uma amostra de 200
famílias num determinado ano e as despesas e receitas de uma
amostra de 250 famílias cinco anos mais tarde. Neste caso, as
entidades observadas nas diferentes datas podem não ser as mesmas.
• Dados de painel – Em muitas situações os dados disponíveis referem-
se a um conjunto fixo de entidades observadas em várias datas. Neste
caso, diz-se que se tem um conjunto de dados de painel ou dados
longitudinais (por exemplo: as despesas e receitas de uma amostra
fixa de 200 famílias ao longo de vários anos). O aspecto fundamental
dos dados de painel é que o conjunto de dados a observar é sempre o
mesmo para todas as observações temporais, o que, muitas vezes,
dificulta a sua obtenção.

Quando a análise estatística não tem por objectivo apenas descrever o


fenómeno em estudo e se entra no domínio da Inferência Estatística, faz
pouco sentido falar em colecções de dados, tornando-se conveniente falar
em amostras e, consequentemente, em populações. Em estatística,
população ou universo é o conjunto de todos os elementos (indivíduos,
entidades ou objectos) cujos atributos queremos estudar. Deste modo, as
populações são os conjuntos fundamentais para efectuar análises estatísticas.

4
Exemplos de populações:
• o conjunto das famílias da cidade de Braga em Fevereiro de 2009;
• o conjunto das empresas da indústria transformadora em Janeiro de
2009;
• o conjunto dos eleitores nas eleições para a Assembleia da República
em Fevereiro de 2005.

Os elementos da população são em geral designados por unidades


estatísticas: facto ou entidade elementar que é objecto de observação,
qualquer que seja a sua natureza.

Para conhecer de forma completa uma população tem de analisar-se todos os


seus elementos, ou seja, realizar um censo ou indagação completa (em
Portugal costuma-se fazer censos da população de 10 em 10 anos). No
entanto, por questões de orçamento, de tempo, de comodidade, etc.,
raramente é possível analisar todos os elementos de uma população finita e,
obviamente, é impossível observar todos os elementos de uma população
infinita. Desta forma, o estudo dos atributos de uma população tem de ser
feito sobre um seu subconjunto finito, que se designa por amostra.

A forma de selecção de uma amostra a partir da população, designada por


processo de amostragem, é determinante para a qualidade das inferências
que venham a fazer-se. As técnicas usualmente utilizadas para obter
amostras deixam total ou parcialmente ao acaso a selecção dos elementos
que virão a integrá-las. Se intervém apenas o acaso e se todos os elementos
da população têm igual possibilidade de ser incluídos, a amostragem diz-se

5
casual. No extremo oposto, quando a escolha da amostra é feita apenas por
critérios arbitrários do investigador, a amostragem diz-se dirigida. Os
métodos estatísticos não permitem analisar a qualidade dos resultados
obtidos a partir deste último tipo de amostras.

Os atributos a serem estudados numa população podem ser:


• Quantitativos – apresentam-se com diferentes intensidades ou
valores;
• Qualitativos – revestem várias modalidades e registam-se numa:
1. Escala nominal – se a ordem das modalidades não tem
significado (exemplos: {homem, mulher} ou {fumador, não
fumador});
2. Escala ordinal – se a ordem das modalidades tem significado
(exemplo: {trabalhador não especializado, semi-especializado,
especializado, muito especializado}).

Qualquer que seja o atributo considerado é sempre possível representá-lo


numericamente. Assim:
• Quando o atributo é quantitativo, os valores numéricos são as
respectivas intensidades;
• Quando se trata de um atributo qualitativo, este também pode ser
representado numericamente, bastando para tal estabelecer uma
correspondência qualquer entre as várias modalidades e os números
inteiros:

6
1. No caso das escalas nominais pode, por exemplo, fazer-se:
{homem, mulher} {0, 1}, {fumador, não fumador}} {0,
1}. Note-se que a atribuição destes valores não tem qualquer
significado quantitativo, é apenas uma codificação numérica
das várias modalidades;
2. No caso das escalas ordinais pode, por exemplo, fazer-se:
{trabalhador não especializado, semi-especializado, especiali-
zado, muito especializado} {1, 2, 3, 4}. Naturalmente, numa
escala ordinal a numeração é feita de forma a respeitar a ordem
das várias modalidades.

Exemplo - No Recenseamento Geral Agrícola de 1989, cada unidade


estatística (exploração agrícola) foi observada em relação a vários atributos
qualitativos, entre os quais podem salientar-se: 1) explorações segundo a
natureza jurídica do produtor (sete modalidades: produtor singular
autónomo, produtor singular empresário, sociedades, cooperativas agrícolas,
baldios, Estado e outros entes públicos, outras entidades); 2) explorações
segundo a forma de exploração (quatro modalidades: conta própria,
arrendamento fixo, arrendamento de campanha e arrendamento variável).
Entre os atributos quantitativos podem referir-se: 3) superfície agrícola
utilizada (SAU); 4) número de blocos da exploração.

Qualquer que seja o atributo considerado, o seu valor numérico pode variar
de elemento para elemento observado da amostra. Devido a este facto
representam-se estes valores por uma variável que designaremos por x. Se a
amostra observada tem n elementos, ou seja, tem dimensão n, tem-se

7
x1, x2 , ..., xn
onde xi (i = 1, 2, ..., n) é o valor do atributo na i-ésima observação.

As variáveis podem ser de dois tipos:


• Discretas – podem tomar somente um número finito ou uma
infinidade numerável de valores (exemplos: número de filhos de uma
família, número de acidentes por apólice de seguro; estado civil de um
indivíduo);
• Contínuas – podem tomar qualquer valor dentro de um intervalo de
números reais (exemplos: altura e peso de indivíduos; volume de
vendas de uma empresa; a idade de um indivíduo no momento da sua
morte).

1.3 Distribuições de frequências. Histogramas.

Uma colecção de dados, principalmente se for numerosa, pode analisar-se


recorrendo às distribuições de frequências ou distribuições empíricas.
Vamos primeiro analisar o caso em que os valores de determinado atributo
são descritos por uma variável discreta.

Consideremos uma colecção de dados {x1, x2 , ..., xn } , onde xi representa o


valor numérico do atributo observado para a unidade estatística
i (i = 1, 2, ..., n) . Esta colecção pode ser analisada como tal ou constituir uma

amostra de dimensão n de certa população. Seja

8
a1 , a2 , ..., a j , ...,

a sucessão disposta por ordem crescente dos valores possíveis que a variável
x pode assumir. O conjunto de valores da sucessão chama-se domínio da
variável x, e representa-se por A. Nos casos mais correntes tem-se uma
sucessão de números inteiros.

Chama-se frequência absoluta de a j na colecção, e representa-se por F j ,


ao número de vezes que este valor é observado. Deste modo, tem-se a
sucessão das frequências absolutas,

F1 , F2 , ..., F j , ...,

verificando-se, obviamente

j Fj =n

onde n é o número total de observações da colecção ou amostra. A


frequência relativa do valor a j , representada por f j , é definida por

Fj
fj = .
n
Tal como em relação às frequências absolutas, obtém-se a sucessão das
frequências relativas
f1 , f 2 , ..., f j , ...,

verificando-se obviamente,

j f j = 1.

9
Geralmente, quando se fala simplesmente em frequência quer significar-se
frequência relativa.

Exemplo – Na tabela abaixo apresenta-se a distribuição de frequências das


classificações de 120 alunos que realizaram um exame numa determinada
escola.
Classificações Frequências absolutas Frequências relativas
( Fj ) ( fj)

Muito Bom 9 0.075


Bom 24 0.2
Suficiente 54 0.45
Insuficiente 27 0.225
Insatisfatório 6 0.05
Total 120 1

Quando a variável x é de tipo contínuo, o processo é um pouco mais


complexo, uma vez que não faz muito sentido falar em frequências absolutas
(relativas) de valores isolados. Neste caso, é necessário proceder à definição
de classes de valores, à contagem das frequências absolutas e ao cálculo das
frequências relativas de cada classe.

Para classes de valores de uma variável contínua tomam-se, em geral,


intervalos, correntemente designados por intervalos de classe. A definição
das classes consiste, assim, na fixação dos limites desses intervalos ou
limites de classe. Admita-se que o número de classes é fixado em m, e
represente-se o j-ésimo intervalo de classe por I j .

10
Para a classificação dos valores ser feita sem ambiguidade é necessário que
os intervalos de classe não tenham pontos em comum, isto é,

I j ∩ Ik = ∅ , j≠k.
Por outro lado, para não ficarem valores por classificar, o domínio A da
variável deve ser igual à união de todos os intervalos,

m
A= I
j =1 j .

Seguindo estas duas regras, que introduzem uma partição do conjunto A,


podem definir-se os m intervalos de classe,

( ]
I1 = (l0 , l1],..., I j = l j −1, l j , ..., I m = (lm−1, lm ] ,

abertos à esquerda e fechados à direita, a verificar

l0 < l1 < ... < l j < ... < lm , l0 ≤ min( xi ) e lm ≥ max( xi ) ,

em que min( xi ) e max( xi ) representam, respectivamente, o mínimo e o


máximo dos valores observados. Desta forma, um valor x pertence à j-ésima
classe quando e só quando l j −1 < x ≤ l j . Por vezes, é conveniente considerar o

primeiro intervalo fechado à esquerda e/ou o último intervalo aberto à


direita.

11
A amplitude da j-ésima classe é dada por,

h j = l j − l j −1 ( j = 1, 2, ..., m).

Quando não haja inconveniente e tal seja possível, devem tomar-se classes
com amplitude constante, h j = h ( j = 1, 2, ..., m) , propriedade que pode tornar

mais sugestiva a comparação das frequências das diversas classes.

Feito o apuramento dos valores pertencentes a cada classe, a frequência


absoluta da classe I j ( j = 1, 2, ..., m) , F j , ou a frequência relativa da mesma,

f j , são obtidas pelos métodos apresentados anteriormente.

A construção de intervalos de classe também pode ser feita para variáveis


discretas quando estas assumem um grande número de valores.

Exemplo – Na tabela abaixo apresenta-se a distribuição de frequências dos


valores do colesterol (em mg/dl) dos 293 empregados de uma empresa
obtidos no check-up realizado periodicamente.

12
Classes de colesterol Frequências absolutas Frequências relativas
( Fj ) ( fj)

]100, 120] 11 0.038


]120, 140] 19 0.065
]140, 160] 44 0.150
]160, 180] 54 0.184
]180, 200] 59 0.201
]200, 220] 49 0.167
]220, 240] 33 0.113
]240, 260] 13 0.045
]260, 280] 8 0.027
]280, 300] 3 0.010
Total 293 1

É frequente encontrar quadros de frequências em que a primeira e a última


classes, ou só uma delas, apresentam, respectivamente, o limite inferior e o
limite superior indefinidos. Sempre que possível deve evitar-se esta situação,
pois ela pode dificultar a realização de certos cálculos, como veremos nos
pontos seguintes do programa. No entanto, o problema pode não ser
particularmente grave pois, muitas vezes, o investigador dispõe da colecção
de dados original.

13
Um problema que se põe na construção de tabelas de distribuições de
frequências é qual o número de classes que se deve escolher. Por um lado,
quando se classificam as observações de uma variável contínua perde-se
necessariamente informação, pois deixa de conhecer-se a variabilidade
dentro de cada classe. Por outro lado, quando se classificam os dados num
número excessivo de classes, acontece que o número total de observações
não é suficiente para pôr em evidência a eventual regularidade do fenómeno.
Deve, pois, optar-se por uma solução de compromisso, não sendo possível
dar instruções objectivas sobre o número de classes a considerar.

A ideia de conjunto de uma distribuição de frequências pode ser melhorada


com a da respectiva representação gráfica. Quando se trata de uma variável
discreta, recorre-se aos diagramas de barras, representando-se no eixo das
abcissas os valores de x, e no eixo das ordenadas, as frequências (relativas
ou absolutas) com que os valores foram observados. A representação das
frequências relativas no eixo das ordenadas é mais sugestiva no caso da
comparação de diagramas de distribuições que tenham desigual número de
observações.

Exemplo – Veja-se a representação, em diagrama de barras, da distribuição


de frequências das classificações de 120 alunos que realizaram um exame
numa determinada escola, apresentada num dos exemplos acima.

14
A representação gráfica de distribuições de frequências de variáveis
contínuas é obtida por meio de um diagrama de áreas, o histograma,
formado por uma sucessão de rectângulos adjacentes.

Quando os intervalos de classe têm amplitude constante, h, cada


rectângulo tem base h e altura igual à respectiva frequência relativa
(absoluta). Assim, quando, por exemplo, se empregam frequências relativas,
a área do rectângulo correspondente à classe I j ( j = 1, 2, ..., m) é h f j , e a

soma das áreas é h. Como se pode sempre supor h=1 (trata-se meramente de
uma questão de escala), neste caso, é indiferente dizer que a área ou a altura
de cada rectângulo é igual à respectiva frequência relativa.

Quando as classes têm amplitudes diferentes, h j , os rectângulos têm base

h j e altura igual à respectiva frequência relativa (absoluta) dividida pela

amplitude do intervalo de classe, f j hj ( F j h j ). Desta forma, a área do

rectângulo correspondente à classe I j ( j = 1, 2, ..., m) é a frequência relativa

(absoluta), e a soma das áreas é igual a 1 (número de observações, n).

Tal como nos diagramas de barras, o recurso às frequências relativas


costuma ser mais indicado porque permite comparar colecções com um
número desigual de observações, na condição de os intervalos de classe
serem os mesmos nas duas colecções.

Exemplo – Veja-se o histograma da distribuição de frequências dos valores


do colesterol (em mg/dl) dos 293 empregados de uma empresa obtidos no
check-up realizado periodicamente, apresentada num dos exemplos acima.

15
1.4 Características numéricas: média e desvio padrão

Neste ponto vamos estudar como se pode proceder à descrição de colecções


de dados ou amostras através de características numéricas que sumariem a
informação disponível.

Quando é observado um atributo quantitativo, uma das principais


características numéricas, sobejamente conhecida, é a média. A média de
uma colecção de dados ou de uma amostra constituída pelos valores
{x1, x2 , ..., xn } designa-se por x , e define-se pela expressão:

x1 + x2 + ... + xn 1 n
x= = i =1 xi .
n n

Sempre que possível, para não desprezar informação, a média deve ser
calculada a partir dos dados originais. No entanto, se apenas se dispõe das
distribuições de frequências, torna-se necessário recorrer à hipótese básica
da tabulagem, que consiste em atribuir a todas as observações de uma
determinada classe o valor dado pelo ponto médio desta, x′j ( j = 1, 2, ..., m) ,
isto é
1 l j −1 + l j
x′j = l j −1 + hj = .
2 2

16
A natureza do erro que assim se comete, chamado erro de tabulagem, deve
ser tida em conta quando se analisam os resultados. Note-se que é
importante não confundir os pontos médios das m classes, x1′ , x2′ , ..., xm′ , e os n
valores originais da colecção {x1, x2 , ..., xn } . Neste caso, a média é uma
média ponderada tomando as frequências relativas como pesos. Tem-se

1 m m
x= j =1 F j x′j = j =1 f j x′j .
n

A média é uma medida de localização que, geralmente, indica um valor


central da distribuição, entendido como o valor em torno do qual se
distribuem os valores da colecção. Por isso, frequentemente, a média é usada
como valor representativo de uma colecção. No dia a dia ouve-se falar
constantemente no rendimento médio, no preço médio, no custo médio, na
média de idades, etc.

Da definição de média sai imediatamente


n
i =1 (xi − x ) = 0 ,

propriedade que se enuncia da seguinte maneira: a soma dos desvios em


relação à média é nula.

Existem outras medidas de localização: a mediana (que estudaremos no


ponto seguinte) e a moda.

17
No caso de estarmos a considerar os dados originais, a moda, representada

por m∗ , é o valor com maior frequência. A moda pode ser determinada


qualquer que seja a natureza do atributo observado (quantitativo, qualitativo
em escala nominal ou qualitativo em escala ordinal).

Exemplo – No exemplo das classificações dos 120 alunos, dado acima, a


moda é a classificação Suficiente. Neste caso, não se pode calcular a média
desta colecção de dados.

Se estivermos a considerar dados classificados em intervalos de igual


amplitude, a classe com maior frequência designa-se classe modal. Quando
as classes têm amplitudes diferentes, a classe modal é aquela que
corresponde ao rectângulo com maior altura no histograma. A moda pode
considerar-se o ponto médio da classe modal (isto é, obviamente, uma
aproximação).

Exemplo – Calcule-se a média e a classe modal referentes à distribuição de


frequências dos valores do colesterol, apresentada num dos exemplos acima.
Faça-se os mesmos cálculos no exemplo da distribuição de frequências das
SAU das explorações agrícolas.

Outro aspecto a considerar quando se descrevem colecções de dados é a


dispersão. A dispersão deve definir-se tomando em consideração a posição
das observações em relação a uma referência fixa que, naturalmente, deve
ser o valor escolhido para localizar a colecção ou a distribuição de

18
frequências. Quando a medida de localização usada é a média, esta deve ser
tomada para referenciar a dispersão das observações. Assim, neste caso, uma
medida de dispersão deve sintetizar o comportamento do conjunto de
desvios em relação à média. Uma vez que, como vimos acima, a soma dos
desvios em relação à média é nula, podem tomar-se os quadrados dos
desvios para não haver compensação entre desvios positivos e negativos.
Assim, quando consideramos a média dos quadrados dos desvios em relação
à média,
1 2
s2 = n
i =1 (xi − x ) ,
n
obtém-se a variância da colecção de dados ou da amostra.

Quando a amostra tem dimensão pequena utiliza-se preferencialmente a


variância corrigida
1 2
s′ 2 = n
i =1 (xi − x ) ,
n −1
por motivos que serão estudados no ponto 6 do programa.

Como as medidas de dispersão apresentadas acima são valores médios de


quadrados, a comparação dos seus valores com o da média da amostra não é
directamente possível. Quando se pretender fazer essa comparação, deve
recorrer-se à raiz quadrada positiva da variância (variância corrigida), que se
designa por desvio padrão (desvio padrão corrigido). A definição destas
medidas é dada, respectivamente, por

1 2 1 2
s=+ n
i =1 (xi − x ) e s′ = + n
i =1 (xi − x ) .
n n −1

19
Quando se dispõe apenas de dados classificados, as expressões anteriores
são adaptadas tendo em conta a hipótese básica da tabulagem. Obtêm-se
assim, respectivamente, as seguintes expressões para a variância e para a
variância corrigida:

s2 =
1
n
m
j =1 F j (x′j − x )2 = m
j =1 f j (x′j − x )2 ,

s′ 2 =
1
n −1
m
j =1 F j (x′j − x )2 = n n− 1 m
j =1 f j (x′j − x )2 .

Os valores do desvio padrão e do desvio padrão corrigido são obtidos


tomando as raízes quadradas positivas destas expressões.

Muitas vezes, o cálculo da variância torna-se mais fácil usando a seguinte


fórmula alternativa:
1 n 2
s2 = i =1 xi − x2 .
n
Esta fórmula diz-nos que a variância de uma amostra é igual à média dos
quadrados dos valores observados menos o quadrado da média dos mesmos
valores.

No caso de dados classificados tem-se

m
s2 = j =1 f j x′j 2 − x 2 .

20
Exemplo – Calcule-se a variância e o desvio padrão nos exemplos dos
valores do colesterol e das SAU das explorações agrícolas.

O desvio padrão é uma medida de dispersão absoluta. Quando todas as


observações têm o sinal positivo, uma medida de dispersão relativa muito
usada é o coeficiente de variação,
s
CV = ,
x
que, como se pode verificar, é independente da unidade em que se exprime a
variável e permite a comparação entre duas ou mais distribuições.

1.5 Características numéricas: estatísticas de ordem

Quando o atributo em estudo é quantitativo ou qualitativo em escala ordinal,


os dados da colecção {x1, x2 , ..., xn } podem ser ordenados,

x(1) , x( 2) , ..., x( n ) com x(1) ≤ x( 2) ≤ ... ≤ x( n ) ,

e diz-se que se calcularam as estatísticas de ordem. Assim, x(i ) é a

estatística de ordem i, com i = 1, 2, ..., n . Duas estatísticas de ordem


importantes são os extremos,

x(1) = min( xi ) , x( n) = max( xi ) .

21
A partir das estatísticas de ordem podem ser definidas outras características
numéricas da colecção de dados. É dada particular importância à mediana,
que é a principal concorrente da média como medida de localização. De
forma aproximada, a mediana, que se representa por M, é o valor da
colecção que tem 50% de observações inferiores e 50% de observações
superiores. Em termos rigorosos, a mediana pode definir-se da seguinte
maneira:
x( k +1) se n = 2k + 1
M= .
( x( k ) + x( k +1) ) 2 se n = 2k

Assim, quando n é ímpar, a mediana é a estatística de ordem k +1; quando n


é par, a mediana é a média simples das estatísticas de ordens k e k +1.

Quando se consideram os dados originais, o cálculo da mediana é imediato


após proceder à ordenação das observações.

Comparando a mediana e a média, facilmente se chega à seguinte conclusão:


enquanto no cálculo da média basta alterar uma observação para que a média
varie, a mediana é definida pela sua posição na sucessão ordenada de
observações, isto é, a mediana ocupa o lugar central na sucessão das
estatísticas de ordem. Isto significa que a mediana está muito menos sujeita à
influência das observações extremas do que a média ou, em linguagem mais
técnica, a mediana é uma medida mais resistente do que a média.

22
Exemplo – Considere o quadro abaixo com os montantes em euros de 36
facturas escolhidas ao acaso, emitidas por um supermercado de um
determinado bairro. Calcule a média, a mediana e a moda dos montantes das
facturas.
10 25 37 53 74 58
13 25 38 58 80 63
15 30 39 58 82 64
21 32 39 58 88 40
23 34 41 70 250 15
24 35 48 70 254 20

A mediana é um caso particular dos quantis. Em termos aproximados, o


quantil de ordem α ou o (100α)-ésimo quantil, 0 < α < 1 , seja, qα , é o valor
da colecção que tem α n observações inferiores e (1 − α )n observações
superiores. A mediana é o quantil de ordem α=0.5 ou o quinquagésimo
quantil. Outros quantis importantes, muito utilizados na prática, são os
percentis, obtidos quando α=0.01, 0.02, …, 0.99, os decis, quando α=0.1,
0.2, …, 0.9, o primeiro quartil, q0.25 , ou simplesmente Q1 , e o terceiro

quartil, q0.75 , ou simplesmente Q3 . O segundo quartil é, obviamente, a

mediana, ou seja, M = q0.50 = Q2 .

23
De seguida, vai apresentar-se um procedimento para calcular os quantis
quando se dispõe de uma colecção ordenada de dados em que x(1) e x( n ) são

os extremos. Como existem n − 1 intervalos unitários entre 1 e n, a ordem da


observação correspondente ao quantil de ordem α é dada por 1 + ( n − 1)α , se
este valor for inteiro. Assim, neste caso, fazendo 1 + (n − 1)α = r , o quantil

de ordem α é qα = x(r ) .

Quando 1 + ( n − 1)α não é inteiro, seja

1 + (n − 1)α = r + ε ,

onde r é a parte inteira e ε é a parte decimal ( 0 ≤ ε < 1 ). Neste caso, o valor


r +ε pode ser considerado a ordem aproximada da observação
correspondente ao quantil. Na prática, o quantil de ordem α obtém-se por
interpolação linear, fazendo a seguinte média ponderada entre x( r ) e x( r +1) :

qα = x( r ) + ε ( x( r +1) − x( r ) ) = (1 − ε ) x( r ) + ε x( r +1)

Note-se também que o quantil de ordem α não se deve definir quando


α < 1 (n + 1) ou α > n (n + 1) .

24
No caso particular dos quartis tem-se:

Quartis Ordem aproximada


1º quartil: Q1 (n + 3) 4

Mediana: M (n + 1) 2

3º quartil: Q3 (3n + 1) 4

Podem definir-se medidas de dispersão (absoluta e relativa) a partir das


estatísticas de ordem. Assim, a amplitude do intervalo de variação,
AIV= x( n ) − x(1) , e a amplitude interquartis, AIQ= Q3 − Q1 , são medidas de

dispersão absoluta. O primeiro intervalo compreende todas as observações.


O segundo intervalo compreende 50% das observações. Quando todas as
observações têm o mesmo sinal, pode também considerar-se a seguinte
medida de dispersão relativa:
AIQ
.
M

Os extremos, os quartis e a mediana permitem construir o resumo dos 5


números. A capacidade descritiva do resumo dos 5 números aprecia-se
melhor construindo um gráfico designado por caixa-de-bigodes. Este
gráfico indica a posição dos 5 números. Neste gráfico figura um rectângulo
(“a caixa”), desenhado de tal modo, que os seus lados inferior e superior
correspondem aos 1º e 3º quartis. No interior do rectângulo figura um
segmento de recta que representa a mediana. O mínimo e o máximo da

25
colecção são representados pelos segmentos inferior e superior (“os
bigodes”) desenhados no exterior do rectângulo. A caixa nos seus limites
horizontais, isto é, entre o 1º e 3º quartis, contém 50% das observações. As
caixas-de-bigodes prestam-se a comparações quando as variáveis em estudo
se exprimem nas mesmas unidades.

Exemplo – Calcule o 1º e o 3º quartis, o 9º decil, a amplitude do intervalo de


variação e a amplitude interquartis da colecção de dados do último exemplo
(os montantes das 36 facturas). Apresente ainda o resumo dos 5 números e
construa uma caixa-de-bigodes para a mesma colecção.

Quando se dispõe apenas de dados classificados e se pretende calcular


quantis (mediana, quartis, etc.), é necessário pôr em prática um
procedimento que os permita estimar (não tendo as observações originais,
não é possível ordená-las). O procedimento que se vai descrever a seguir
consiste em fazer uma interpolação na classe I j a que pertence o quantil

qα . Assim, supondo que qα ∈ I j , tem-se

l j −1 ≤ qα ≤ l j e f j*−1 ≤ α ≤ f j*

onde f j*−1 e f j* são as frequências relativas acumuladas até às classes I j −1 e

I j , respectivamente. Então, estabelecendo a proporção,

f j* − f j*−1 α − f j*−1
= ,
l j − l j −1 qα − l j −1

26
ou, notando que f j* − f j*−1 = f j e l j − l j −1 = h j ,

fj α − f j*−1
= ,
hj qα − l j −1

obtém-se:

α − f j*−1
qα = l j −1 + hj .
fj

Exemplo – Calcule-se a mediana e a amplitude interquartis nos exemplos


dos valores do colesterol e das SAU das explorações agrícolas.

A forma do histograma de uma distribuição de frequências bem com a


relação entre a média e a mediana dão-nos informação sobre a simetria de
uma distribuição. Uma distribuição de frequências diz-se simétrica quando
as observações se distribuem simetricamente em torno (abaixo e acima) da
média. Neste caso a média e a mediana são iguais. Quando as observações
não se distribuem simetricamente em torno da média, a distribuição diz-se
assimétrica ou enviesada. Uma distribuição assimétrica positiva ou
enviesada à direita apresenta uma cauda que se estende para a direita na
direcção dos valores positivos. Neste caso, a média é maior que a mediana.
Pelo contrário, uma distribuição assimétrica negativa ou enviesada à
esquerda apresenta uma cauda que se estende para a esquerda na direcção
dos valores negativos. Neste caso, a média é menor que a mediana.

27
Casos típicos de distribuições assimétricas positivas são as distribuições
dos rendimentos das famílias de uma dada cidade ou país. Nestas
distribuições há uma grande proporção de famílias que têm rendimentos
relativamente baixos enquanto, por outro lado, há uma pequena percentagem
de famílias que têm rendimentos elevados e que se distribuem por um
intervalo de grande amplitude. Como consequência, nestas situações, os
rendimentos muito elevados “puxam” a média para cima tornando-a bastante
maior que a mediana. Digamos que, nestas distribuições, a média dá uma
visão demasiado optimista do bem-estar do conjunto das famílias em estudo.
Nestes casos é preferível utilizar a mediana como valor representativo da
distribuição.

Casos típicos de distribuições assimétricas negativas são as distribuições


das idades dos indivíduos de uma determinada população no momento da
morte.

Uma possível fonte de assimetria nas distribuições é a existência de


observações extremas ou outliers. Por exemplo, se há observações de
valores anormalmente elevados na colecção de dados, o valor da média é
“puxado” para cima por essas observações, traduzindo-se este facto numa
possível assimetria positiva.

Exemplo – Analise-se a simetria das distribuições de frequências dos


valores do colesterol e das SAU das explorações agrícolas.

28
1.6 Outliers

As observações com valores muito pequenos ou muito grandes em relação às


outras observações são designadas por outliers. Para se identificar estas
observações numa colecção de dados é necessário recorrer a uma medida de
dispersão resistente à influência destas observações, ou seja, pouco
susceptível de ser “corrompida” por estas. Atendendo a este critério, a
amplitude do intervalo de variação, AIV, e o desvio padrão não são boas
escolhas. A primeira, por razões óbvias; o desvio padrão, porque sendo uma
função de uma soma de quadrados, alinha em certa medida com os valores
extremos. Uma medida de dispersão resistente é dada pela amplitude
interquartis, AIQ, pois no seu cálculo não entram nem as observações de
menor valor nem as de maior valor. Desta forma, a AIQ é a medida de
dispersão que vai ser utilizada para identificar outliers.

A regra prática para identificação de outliers consiste no seguinte: um


qualquer valor da colecção, xi , é um outlier severo quando

xi < Q1 − 3(Q3 − Q1 ) ou xi > Q3 + 3(Q3 − Q1 )

e um outlier moderado quando

Q1 − 3(Q3 − Q1 ) < xi < Q1 − 1.5(Q3 − Q1 ) ou

Q3 + 1.5(Q3 − Q1 ) < xi < Q3 + 3(Q3 − Q1 ).

29
Os valores Q1 − 3(Q3 − Q1 ) e Q3 + 3(Q3 − Q1 ) são as chamadas barreiras
externas inferior e superior, respectivamente; os valores
Q1 − 1.5(Q3 − Q1 ) e Q3 + 1.5(Q3 − Q1 ) são as barreiras internas inferior e

superior, respectivamente.

A identificação (são ou não são?) e a interpretação (se são, qual a razão?) de


outliers são tarefas complexas que não são objecto de estudo desta unidade
curricular. No entanto, deve referir-se que, muitas vezes, a existência de
outliers deve-se:
• a erros humanos cometidos ao medir ou ao registar os dados (neste
caso, trata-se de outliers que convém eliminar do estudo);
• à própria natureza do fenómeno em estudo (neste caso, trata-se de
outliers que se deve manter na colecção).

A possível presença de outliers obriga a modificar a caixa-de-bigodes tal


como foi apresentada anteriormente. O esquema modificado consiste em
calcular os quartis (1º quartil, mediana e 3º quartil) tal como anteriormente,
em determinar os extremos (máximo e mínimo) sem considerar os outliers e,
a seguir, acrescentar estes valores, utilizando símbolos gráficos diferentes
para distinguir os outliers moderados dos outliers severos.

Exemplo – Identifique-se eventuais outliers na colecção dos montantes das


facturas apresentada acima. Caso sejam identicados outliers, modifique-se a
respectiva caixa-de-bigodes em conformidade.

30
Exercício – Considere a distribuição de 500 empresas de um sector de
actividade segundo os resultados líquidos de 2006 dada na tabela abaixo.

Resultado líquido ( 104 €) Número de empresas


[0, 50] 75
]50, 150] 105
]150, 250] 100
]250, 500] 85
]500, 750] 65
]750, 1250] 50
]1250, 2000] 20

a) Construa um histograma desta distribuição e comente.


b) Calcule a média, a mediana e a moda da distribuição.
c) Com base no histograma, na média e na mediana caracterize a assimetria
da distribuição.
d) Calcule o 1º e o 3º quartis e o 95º percentil.
e) Analise a dispersão dos resultados das empresas do sector.
f) Calcule a percentagem de empresas cujos resultados líquidos se situam
entre 1 e 3 milhões de euros.
g) Calcule a percentagem de empresas cujos resultados líquidos se situam
s s
entre x − e x+ .
2 2

31
1.7 Correlação

Nos pontos anteriores estudou-se a forma de explorar, descrever e comparar


colecções de uma só variável. Quando se consideram, com o mesmo
objectivo, colecções de pares de variáveis,
(x1, y1 ), (x2 , y2 ), ..., (xn , yn ) ,

aparece um problema novo: o estudo das relações que porventura existam


entre os dois fenómenos observados. Investigar a natureza das relações
gerais entre fenómenos é um dos principais objectivos da ciência.

Cada uma das duas características observadas pode, como se sabe, ser de
tipo qualitativo ou de tipo quantitativo. Neste ponto vamos só tratar o caso
em que ambas as características são de tipo quantitativo.

Considere-se então que se dispõe de uma colecção ou amostra referente a


um par de variáveis quantitativas, {(x1, y1 ), (x2 , y2 ), ..., (xn , yn )}. A análise
da colecção começa geralmente pelo estudo de cada uma das variáveis por si
só, com base na metodologia estudada nos pontos anteriores. Após esta
primeira fase, inicia-se então o estudo das possíveis relações existentes entre
as variáveis. Com esse objectivo, constrói-se um diagrama de dispersão
onde se representam, num referencial cartesiano, os diferentes pontos da
colecção. A observação deste diagrama permite, desde logo, formar uma
ideia grosseira do tipo de associação que pode existir entre as variáveis.

32
Exemplo – Na tabela abaixo apresentam-se os valores do produto interno
bruto (PIB) e das importações de Portugal para o período 1979-1996,
expressos em milhões de contos, a preços constantes de 1993. Construa-se o
diagrama de dispersão dos valores do PIB e das importações.

Ano PIB Importações


1979 7980 1269.3
1980 8398.1 1522.1
1981 8639.7 1622.3
1982 8894.3 1717.6
1983 9062.8 1606.2
1984 9037.5 1572.9
1985 9236.1 1645.8
1986 9573.8 1956
1987 10326.7 2492
1988 10919.1 3031.3
1989 11695.5 3288.8
1990 12664.8 3819
1991 13100.8 4138.4
1992 13571.1 4593.3
1993 13545.9 4522.8
1994 13613.6 4970.6
1995 13926.7 5452.7
1996 14386.3 5861.7

33
Aqui, não estamos interessados em estudar relações determinísticas entre
duas variáveis, como por exemplo a existente entre o perímetro de uma
circunferência e o raio do círculo correspondente ( C = 2π R ), mas sim
relações estatísticas. Estas relações não têm um carácter tão preciso como
as relações determinísticas. Assim, por exemplo, não se pode dizer que a um
determinado valor do PIB corresponde com toda a certeza um determinado
valor das importações, mas podemos dizer que quanto maior for o PIB,
maiores serão, em média, as importações. Também não podemos dizer que a
determinado preço de um produto corresponde uma determinada quantidade
procurada do produto. No entanto, podemos dizer que, em geral, quanto
maior for o preço, menor será, em média, a quantidade procurada.

Fundamentalmente, é da variação em média que se ocupam as relações


estatísticas. Entre duas variáveis ligadas por uma relação estatística diz-se
que existe correlação. Pretende-se com isto dizer que os fenómenos não
estão indissoluvelmente ligados, mas, sim, que a intensidade de um é
acompanhada tendencialmente pela intensidade do outro, no mesmo sentido
ou em sentido inverso. Em média, as importações variam directamente com
o PIB: entre o PIB e as importações há correlação positiva. Em média, a
quantidade procurada de um produto, varia inversamente com o seu preço:
entre a quantidade procurada de um produto e o seu preço há correlação
negativa.

34
Suponha-se que existe uma relação estatística entre duas variáveis e que se
pretende medir a intensidade da respectiva correlação. Tal como se definiu o
conceito de variância para medir a dispersão de uma colecção de dados de
uma variável, torna-se necessário dispor de um outro conceito que permita
medir a variação conjunta de duas variáveis. Este conceito é o de
covariância da colecção de observações de um par de variáveis, e é definido
da seguinte maneira:
1 n
s xy = i =1 ( xi − x )( yi − y ) .
n

Temos pois que a covariância é a média dos produtos dos desvios das
observações das variáveis x e y em relação às suas médias.

Pode fazer-se uma interpretação simples da expressão da covariância a partir


do respectivo diagrama de dispersão, fixando o ponto ( x , y ) como origem do
sistema de eixos. Desta forma, o plano é dividido em 4 quadrantes, a saber:

1º quadrante – pontos ( xi , yi ) tais que xi ≥ x e yi ≥ y ;


2º quadrante – pontos ( xi , yi ) tais que xi ≤ x e yi ≥ y ;
3º quadrante – pontos ( xi , yi ) tais que xi ≤ x e yi ≤ y ;
4º quadrante – pontos ( xi , yi ) tais que xi ≥ x e yi ≤ y .

Assim, uma covariância positiva corresponde a uma colecção onde


predominam observações situadas nos 1º e 3º quadrantes; quando os pontos
se situam maioritariamente nos 2º e 4º quadrantes, a covariância é negativa.

35
O cálculo da covariância pode ser feito de forma mais operacional através da
seguinte fórmula alternativa:
1 n
s xy = i =1 xi yi −xy.
n

De forma a ultrapassar o problema do valor da covariância depender não só


da variação conjunta das duas variáveis em questão mas também dos valores
absolutos que estas variáveis assumem, e também para tomar em
consideração a variação de cada uma das variáveis, define-se o coeficiente
de correlação de Pearson (ou, simplesmente, coeficiente de correlação)
através de:
n
s xy i =1 ( xi − x )( yi − y )
r= = ,
sx s y n
− x) 2 n
− y) 2
i =1 ( xi i =1 ( yi

onde s x e s y representam o desvio padrão, respectivamente, das variáveis x

e y.

Demonstra-se, sem dificuldade que, − 1 ≤ r ≤ 1 , quaisquer que sejam os


valores assumidos pelas variáveis x e y. Quando r = 1 , existe uma correlação
linear máxima (perfeita) de sentido directo (positiva) entre as variáveis (os
pares de observações ( xi , yi ) situam-se sobre uma recta crescente). Quando
r = 0 , não existe nenhuma relação linear entre as variáveis. Quando r = −1 ,

existe uma correlação linear máxima (perfeita) de sentido inverso (negativa)


entre as variáveis (os pares de observações ( xi , yi ) situam-se sobre uma recta
decrescente).

36
Importa referir que o coeficiente de correlação mede o grau de associação
linear entre as variáveis. Enquanto o sinal do coeficiente indica se a
correlação é positiva ou negativa, o seu valor absoluto mede a intensidade da
associação linear.

Exemplo – Veja-se alguns exemplos de diagramas de dispersão e os


correspondentes coeficientes de correlação.

Exemplo – Calcule o coeficiente de correlação entre os valores do PIB e os


valores das importações apresentados no penúltimo exemplo.

Exercício – A Acme Delivery é uma empresa de transporte e entrega de


encomendas que oferece três serviços diferentes para o transporte de
encomendas com menos de 3 Kg entre a cidade de Maine e a costa oeste dos
Estados Unidos: o serviço regular (3 dólares), o serviço rápido (5 dólares) e
o serviço expresso (10 dólares). Uma empresa que recorre muito a este tipo
de serviços, para testar a qualidade dos serviços oferecidos pela Acme
Delivery, resolveu enviar 15 encomendas, em dias escolhidos ao acaso, de
Maine até Tacoma em Washington. As encomendas foram enviadas em
grupos de 3 (cada uma através de cada um dos serviços) de forma a que o
dia escolhido para o envio não influenciasse os resultados. Foram obtidos os
seguintes pares de observações ( xi , yi ) das variáveis custo do envio em
dólares, x, e número de dias que demorou a entrega, y:

(3,7); (5,5); (10,2); (3,9); (5,6); (10,5); (3,6); (5,6); (10,1); (3,10); (5,7);
(10,4); (3,5); (5,6); (10,4).

37
a) Construa o diagrama de dispersão destas observações e comente a relação
existente entre o custo de envio e o tempo que demora a entrega das
encomendas.
b) Calcule o coeficiente de correlação entre os custos de envio e os tempos
de entrega das encomendas.

É importante referir que não se deve confundir correlação com


causalidade. Com efeito, um coeficiente de correlação entre duas variáveis
com um valor absoluto elevado indica apenas que, na colecção, existe uma
associação aproximadamente linear entre as variáveis, não sendo lícito
inferir qualquer relação de causa e efeito entre elas. No exemplo das
observações do PIB e das importações, o facto do coeficiente de correlação
ser de 0.986, por si só, não permite concluir que as importações dependem
do PIB, ou inversamente. Pode até acontecer que duas variáveis estejam
altamente correlacionadas, mas que não se consiga descobrir qualquer
relação de interesse entre elas. Nestes casos diz-se que se tem uma
correlação espúria entre as duas variáveis.

Exemplo – Sabendo que Mário Soares tinha 63 anos em Dezembro de 1987


e que foi Presidente da República de 1987 a 1996, pode calcular-se o
coeficiente de correlação entre a idade do Presidente e o PIB neste período
(usando os valores do PIB da tabela do exemplo acima), e chega-se a
r = 0.95 . No entanto, não faz qualquer sentido dizer que o PIB depende da

idade do Presidente (aliás, o valor do coeficiente seria exactamente o mesmo


qualquer que fosse o cidadão com a mesma idade considerado). Sendo

38
assim, podemos dizer que existe uma correlação espúria entre as duas
variáveis. Neste caso, a explicação para o valor de r é o facto de, quer o PIB,
quer a idade do Presidente, dependerem de uma mesma terceira variável: o
tempo.

Exercício – O número de sinistros participados por cada apólice do ramo


automóvel é uma informação de grande importância para que as seguradoras
possam construir as suas tarifas. Lemaire (1995) [Bonus-Malus Systems in
Automobile Insurance, Kluwer Academic Publishers] apresenta a seguinte
informação no que se refere à sinistralidade em Responsabilidade Civil de
uma seguradora belga:

Nº de sinistros Nº de apólices
0 96978
1 9240
2 704
3 43
4 9
>4 0
Total 106974

a) Calcule a média e a variância do número de sinistros por apólice.


b) Apresente a informação sob a forma de um diagrama de barras.

39
Exercício – Considere uma colecção de observações {x1, x2 , ..., xn } . Suponha
que se adiciona a mesma constante, c, a cada uma das observações. Obtenha
a média, a mediana, a variância e os quartis da colecção referente aos dados
transformados em função das mesmas características da colecção original.

Exercício – Os dados apresentados referem-se à taxa anual de mobilidade


em 40 bairros residenciais de determinada cidade americana (nº de
agregados que deixaram o bairro num determinado ano a dividir pelo nº total
de agregados que residem no bairro).

0.10 0.15 0.16 0.18 0.19 0.21 0.23 0.26


0.12 0.15 0.16 0.18 0.20 0.22 0.24 0.26
0.12 0.15 0.17 0.19 0.20 0.22 0.25 0.28
0.13 0.16 0.17 0.19 0.21 0.22 0.25 0.30
0.14 0.16 0.18 0.19 0.21 0.22 0.26 0.36

a) Construa um resumo dos 5 números para esta colecção.


b) Identifique eventuais outliers e construa uma caixa-de-bigodes
c) Calcule a média e a mediana da colecção.
d) Suponha que o valor 0.36 resulta de um erro no registo da informação,
sendo o valor correcto de 0.26. Será que este erro tem impacto nas
medidas que calculou na alínea anterior.

40

Você também pode gostar