Você está na página 1de 14

1

Estatística Descritiva
1 Introdução
Os métodos estatísticos são hoje em dia aplicados em diferentes ramos de actividades, sejam
nas engenharias, ciências sociais e humanas, medicina, economia, ciências contábeis, e entre
outros, pois os seus métodos auxiliam na organização e interpretação de dados gerados (ou
obtidos) nestas áreas, facilitando a tomada de decisões a partir destes.

A Estatística como ciência é organizada (ou dividida) em dois grandes campos, devido a forma
como os dados são analisados, nomeadamente, a Estatística Descritiva, cujos os objectivos
são descrição, análise e intepretação de dados colectados ou gerados, enquanto que o outro
campo, é a Inferência Estatística, cujo é realizar inferências, ou seja a generalização de
resultados particulares, e esta, está associada às Probabilidades que quanticam a incerteza
neste processo.

2 Conceitos Básicos
Em seguida, serão apresentados conceitos básicos, que são aplicados com uma grande frequência
no estudo de métodos estatísticos.

2.1 População e Unidade Estatística


A palavra população é aplicada na Estatística para se referir a um conjunto de elementos (ou
indivíduos estatísticos) que apresentam pelos uma característica em comum. O termo indivíduos
estatísticos não apenas representam pessoas , estes podem ser plantas, animais, objectos ,
minérios, entre outros. A população , quanto ao número de elementos ou ao processo analisado,
pode ser nita ou innita. A cada elemento da população chama-se unidade estatística.

2.2 Amostra
Uma amostra, outro conceito de grande importância, é um subconjunto não vazio da popu-
lação. O tratamento estatístico a partir de uma amostra apresenta-se vantajoso em termos
económico, de economia de tempo, entre outros. Dependendo do tipo de amostragem, tema
a ser abordado na Teoria de Amostragem, o seu uso requer cuidado, pois tratando-se de um
processo probabilístico ela deve ser aleatória, representativa, ampla e não viciada.

2.3 Variável Estatística


Quando se pretende analisar (ou estudar) uma determinada população, são denidas a priori
e observadas características especícas da mesma. A estas características, recebem o nome de

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
2

variáveis estatísticas. A variáveis estatísticas podem ser quantitativas são expressas numeri-
camente) ou qualitativas (também chamadas de atributos, que geralmente não são expressas
numericamente. Em alguns casos podem assumir a escala numérica). As variáveis quantitativas
podem ser discretas, quando assumem valores discretos (ou seja são representados por números
inteiros) e contínuas, quando não assumem valores discretos (ou seja, podem ser representados
números decimais ). As variáveis qualitativas podem ser nominais, quando as suas catego-
rias não apresentam relação de ordem, e ordinais se as suas categorias apresentam relação de
ordem.A gura 1, ilustra a classicação de uma variável estatística.

Variável Estatística

Quantitativa Qualitativa

Contínua Discreta Ordinal Nominal

Figura 1: Classicação de uma Variável Estatística

3 Distribuição de Frequências
3.1 Elementos de uma Distribuição de Frequências
Para elaborar uma tabela de frequências de dados agrupados ou não em classes, é necessário,
apresentar alguns termos usados neste processo. Assim,tem-se:

1. Frequência Absoluta, denotado por fi (com i = 1, 2, 3, · · · , n), é o número de dados


observados correspondentes a uma classe ou a um valor individual.

2. Frequência Relativa, denotado por f ri (com i = 1, 2, 3, · · · , n), é o quociente entre


frequência absoluta de uma classe ou a um valor individual e o número total de dados
observados (ou colectados). A sua expressão matemática é:

fi
f ri = n
X
fi
i=1

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
3

Para as frequências relativas vale a seguinte relação


n
X
f ri = 1
i=1

As frequências relativas podem ser presentadas na forma de percentagem, para isso faça:

fi
f ri = n × 100%
X
fi
i=1

3. As frequências acumuladas podem ser:

(a) Frequência Absoluta Acumulada


(i) A Frequência Absoluta Acumulada Acima de ,denotada por Fi ↑ (com
i = 1, 2, 3, · · · , n), é a soma de todas as frequências absolutas acima da classe
ou valor individual inclusivé.
(ii) A Frequência Absoluta Acumulada Abaixo de ,denotada por Fi ↓ (com
i = 1, 2, 3, · · · , n), é a soma de todas as frequências absolutas abaixo da classe ou
valor individual inclusivé.
(b) Frequencia Relativa Acumulada
(i) A Frequência Relativa Acumulada Acima de ,denotada por F ri ↑ (com
i = 1, 2, 3, · · · , n), é a soma de todas as frequências relativas acima da classe ou
valor individual inclusivé.
(ii) A Frequência Relativa Acumulada Abaixo de ,denotada por F ri ↓ (com
i = 1, 2, 3, · · · , n), é a soma de todas as frequências relativas abaixo da classe ou
valor individual inclusivé.

4. Dados Brutos: são os dados não prontos para uma análise por não estarem organizados
(ordenados).

5. Rol Estatistico (também tratado por Rol): é organização dos dados brutos em ordem
crescente ou decrescente.

6. Amplitude Total, denotada AT , é a diferença entre o maior (xmax ) e o menor (xmin ) valor
observado para um conjunto de dados observados. A expressão matemática é:

AT = xmax − xmin

7. Ponto médio da classe (ou centro da classe) é a média aritmética entre os limites inferior
e superior da classe. Geralmente, representa-se por xi e calcula-se da seguinte forma:

lsup − linf
xi =
2

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
4

onde:

lsup  limite inferior da classe;


linf  limite inferior da classe;

8. Número de Classes, denotado por k , pode ser determinado por vários critérios , neste
texto serão destacados os seguintes:

(a) Critério Arbitrário: O número de classes depende do pesquisador, mas deve obedecer
o seguinte condição
5 6 k 6 20

Na prática, recomenda-se para além da condição quanto maior o número dados maior
deve ser o número de classes
(b) Critério da Raíz: obedece ao resultado

 5
 n 6 25
k=
 √n , n > 25

(c) Fórmula de STURGES:


k = 1 + 3, 3 log (n)

Em todos casos, para questões de cálculo, o valor de k deve ser arrendondado por excesso
se não for inteiro.

9. Amplitude do Intervalo da Classe, denotada por h,é a diferença entre o limite superior
e inferior da classe.

3.2 Roteiro para Elaboração de uma Distribuição de Frequências


Para elaboração de uma tabela de frequências com dados agrupados em classes, é apresentado
um roteiro não rígido, com as seguintes etapas:

1. Organizar os dados em ordem crescente;

2. Determinar a amplitude total;

3. Achar o número de classes para os dados observados;

4. Calcular a amplitude do intervalo da classe,dada pela seguinte expressão:

AT
h=
k

O valor de h deve ser arrendondado por excesso se não for inteiro.

5. Determinar os limites dos intervalos das classes

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
5

6. Construir a tabela de frequências

4 Medidas de Tendência Central


4.1 Média Aritmética
A média aritmética, denotada por x̄, é uma das medidas de tendência central mais aplicada na
estatística. Para dados não agrupados , a média aritmética é calculada pela fórmula:
n
X
xi
x 1 + x2 + x3 + · · · + xn i=1
x̄ = =
n n

Para dados agrupados em classes, a média aritmética é calculada pela fórmula:


n
X
xi f i
x1 f 1 + x2 f 2 + x3 f 3 + · · · + xn f n i=1
x̄ = = n
f1 + f2 + f3 + · · · + fn X
fi
i=1

Para este caso de dados agrupados em classes, xi representa o ponto médio (também chamado
de centro) da classe e fi representa a frequência da classe.

4.2 Média Geométrica


A média geométrica, denotada x̄G , é determinada pela seguinte expressão:
v
u n
√ uY
x̄G = x1 × x2 × x3 × · · · × xn = t
n n
xi
i=1

Para dados agrupados em classes, a média geométrica é calculada pela fórmula:


v
q u n
uY f
xf11 × xf22 × xf33 × · · · × xfnn
N
x̄G = N
= t xi i
i=1

Para este caso de dados agrupados em classes, xi representa o ponto médio (também chamado
n
X
de centro) da classe , fi representa a frequência da classe e N = fi .
i=1

Devido a complexidade de cálculos, logaritmizando ambos os membros da fórmula anterior,tornam-


se simples os cálculos em termos computacionais, e chega-se ao resultado:

f1 log(x1 ) + f2 log(x2 ) + f3 log(x3 ) + · · · + fn log(xn )


log(x̄G ) =
N

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
6

A média geométrica, geralmente, é útil para o cálculo de aumentos percentuais médios.

4.3 Média Harmónica


A média harmónica, denotada x̄H , é determinada pela seguinte expressão:

1 1
x̄H = = n
1 1 1 1 X 1
+ + + ··· +
x1 x2 x 3 xn x
i=1 i

Para dados agrupados em classes, a média harmónica é calculada pela fórmula:

N N
x̄H = = n
f1 f2 f3 fn X fi
+ + + ··· +
x1 x2 x 3 xn x
i=1 i

Para este caso de dados agrupados em classes, xi representa o ponto médio (também chamado
n
X
de centro) da classe , fi representa a frequência da classe e N = fi .A média harmónica é
i=1
útil para o tratamento de grandezas inversamente proporcionais.

4.4 Moda
A moda, denotada por Mo , é o valor que ocorre com maior frequência numa distribuição (
ou conjunto de dados). O termo moda foi introduzido por Karl Pearson em 1895. A moda
para um conjunto de dados não agrupados em classes é o valor mais predominante ou seja que
possui maior frequência. Existem distribuições plurimodais ( que possuem mais de uma moda)
e amodais ( que não possuem a moda).

Para o caso de dados apresentados em uma tabela de frequências com dados agrupados em
classes, a moda pode ser calculada a partir da fórmula de Czuber :

∆1
Mo = lMo + h
∆1 + ∆2

onde:

lMo - limite inferior da classe modal (classe que apresenta maior frequência);
∆1 - Diferença entre a frequência da classe modal e a imediatamente anterior;
∆2 - Diferença entre a frequência da classe modal e a imediatamente posterior;
h - amplitude da classe modal.

4.5 Mediana
A mediana, denotada por Me ,é uma medida que divide um conjunto de dados de tal forma
que pelo menos a metade deles são maiores ou iguais a ela (mediana). Por outra forma, a

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
7

mediana divide um conjunto de dados em duas partes iguais, isto é, ela deixa o mesmo número
de elementos antes e depois dela.Para dados não agrupados em classes, o valor da mediana é
determinado através das seguintes etapas:

1. Ordenar os dados em ordem crescente ou decrescente;

2. Vericar se o número dados observados é par ou ímpar;

3. Caso o número de dados observados seja:

(a) par, a mediana será igual a média aritmética dos termos centrais;
(b) ímpar, a mediana será igual ao termo central.

Para dados agrupados em classes, o valor da mediana é dado pela seguinte fórmula:
n X 
+ Fa
2
Me = lMe + h
f Me

onde:

lMe - limite inferior da classe mediana ;


n - número total de dados (soma de todas as frequências absoltas) ;
Fa - soma de todas as frequências anteriores à classe mediana;
P

fMe - frequência da classe mediana;


. h - amplitude da classe mediana.

Para determinar a classe mediana, é necessário determinar o valor do elemento mediano, que é
calculado pela expressão:
n
EMe =
2
Então, se EMe é:

1. par, a classe mediana será aquela que conter o valor (o valor representa uma posição) do
elemento mediano calculado e o da posição seguinte;

2. ímpar, a classe mediana será aquela que conter o valor (o valor representa uma posição) do
elemento mediano arredondado (sempre por excesso) depois de calculado;

5 Medidas de Posição
5.1 Quartis
Os quartis, denotados por Qi ( com i = 1,2 e 3), dividem um conjunto de dados em quatro
partes iguais. Para os quartil de ordem i , a posição do quartil a ser calculado, é dado pela
expressão:
in
EQi =
4

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
8

onde: i - número do quartil a ser calculado e n - número de dados observados.Quando EQi for
par, o quartil em causa vai ser determinado pela média aritmética entre o elemento da posição
calculada ( valor inteiro encontrado pela fórmula) e o da posição seguinte. Caso EQi , for
ímpar, a posição do quartil serà o valor inteiro obtido (sempre arredondado por excesso).As
regras anteriores servem também para determinar a classe quartil de ordem i. Para determinar
essas posições os conjuntos devem ser ordenados de forma crescente, antes de forem calculadas
as posições. Para dados agrupados em classes, o quartil é estimado pela seguinte fórmula:
 in X 
+ F Qi
4
Qi = lQi + h
fQi

onde:

lQi - limite inferior da classe quartil de ordem i ;


n - número total de dados (soma de todas as frequências absoltas) ;
Fa - soma de todas as frequências anteriores à classe quartil de ordem i ;
P

fQi - frequência da classe quartil de ordem i ;


. h - amplitude da classe quartil de ordem i .

5.2 Decis
Os decis, denotados por Di ( com i = 1, 2, 3, · · · , 9), dividem um conjunto de dados em dez
partes iguais. Para os decis de ordem i , a posição do decil a ser calculado, é dado pela expressão:

in
EDi =
10

onde: i - número do decil a ser calculado e n - número de dados observados. Quando EDi for
par, o decil em causa vai ser determinado pela média aritmética entre o elemento da posição
calculada ( valor inteiro encontrado pela fórmula) e o da posição seguinte. Caso EDi , for
ímpar, a posição do decil serà o valor inteiro obtido (sempre arredondado por excesso). As
regras anteriores servem também para determinar a classe decil de ordem i. Para determinar
essas posições os conjuntos devem ser ordenados de forma crescente, antes de forem calculadas
as posições. Para dados agrupados em classes, o decil é estimado pela seguinte fórmula:
 in X 
+ FDi
10
Di = lDi + h
fDi

onde:

lDi - limite inferior da classe decil de ordem i ;


n - número total de dados (soma de todas as frequências absoltas) ;
Fa - soma de todas as frequências anteriores à classe decil de ordem i ;
P

fDi - frequência da classe decil de ordem i ;

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
9

. h - amplitude da classe decil de ordem i .

5.3 Centis
Os centis (também chamados de percentis), denotados por Ci ( com i = 1, 2, 3, · · · , 99), dividem
um conjunto de dados em cem partes iguais. Para os centis de ordem i , a posição do centil a
ser calculado, é dado pela expressão:
in
ECi =
100
onde: i - número do centil a ser calculado e n - número de dados observados. Quando ECi for
par, o centil em causa vai ser determinado pela média aritmética entre o elemento da posição
calculada ( valor inteiro encontrado pela fórmula) e o da posição seguinte. Caso ECi , for
ímpar, a posição do centil serà o valor inteiro obtido (sempre arredondado por excesso). As
regras anteriores servem também para determinar a classe centil de ordem i. Para determinar
essas posições os conjuntos devem ser ordenados de forma crescente, antes de forem calculadas
as posições. Para dados agrupados em classes, o centil é estimado pela seguinte fórmula:
 in X 
+ FCi
100
Ci = lCi + h
f Ci

onde:

lCi - limite inferior da classe centil de ordem i ;


n - número total de dados (soma de todas as frequências absoltas) ;
Fa - soma de todas as frequências anteriores à classe centil de ordem i ;
P

fCi - frequência da classe centil de ordem i ;


. h - amplitude da classe centil de ordem i .

6 Medidas de Dispersão
6.1 Introdução
As medidas de dispersão tem grande utilidade para determinar o grau de dispersão entre os
valores observados e o seu promédio ( muitas das vezes, é a média aritmética). Nos casos em que
as médias de dois conjuntos são iguais (ou aproximadamente iguais) ou quando se pretenda saber
como estão distribuidos os dados neste conjunto analisado ( porque a média não dá informação
sobre a distribuição dos dados, ou sejam como variam em relação a média), são esses casos em
que as medidas de dispersão tem grande importância. Existem várias medidas de dispersão,
mas neste texto serão destacadas a variância, desvio padrão e coeciente de variação.

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
10

6.2 Variância
A variância é uma medida de dispersão absoluta. Ela determina o grau de variação ( como já foi
realçado antes) entre os dados e a média. Na Estatística a variância nâo tem muito signicado
porque as unidades das observações ou dados observados, são elevadas ao quadrado,dicultando
a sua interpretação estatística. Por esta razão recorre se na maioria das vezes ao desvio
padrão.

6.2.1 Fórmulas para o cálculo da variância de uma amostra

(a) Para dados não agrupados

n
X
(xi − x̄)2
2 2 2 2
(x1 − x̄) + (x2 − x̄) + (x3 − x̄) + · · · + (xn − x̄) i=1
s2 = =
n−1 n−1

(b) Para dados agrupados

n
X
(xi − x̄)2 fi
2 2 2 2
(x1 − x̄) f1 + (x2 − x̄) f2 + (x3 − x̄) f3 + · · · + (xn − x̄) fn i=1
s2 = =
n−1 n−1

6.2.2 Fórmulas para o cálculo da variância de uma população

(a) Para dados não agrupados

n
X
(xi − x̄)2
2 2 2 2
(x1 − x̄) + (x2 − x̄) + (x3 − x̄) + · · · + (xn − x̄) i=1
σ2 = =
n n

(b) Para dados agrupados

n
X
(xi − x̄)2 fi
2 2 2 2
(x1 − x̄) f1 + (x2 − x̄) f2 + (x3 − x̄) f3 + · · · + (xn − x̄) fn i=1
σ2 = =
n n

Para os dois casos apresentados, tem-se: xi - representa cada um dos valores observados e n
- é a quantidade dos dados observados (no caso da amostra, é o tamanho da amostra e no
caso da população, refere-se ao tamanho ao tamanho da população ).Para dados agrupados em
classe, xi - é ponto médio de cada classe , fi - representa cada uma das frequências absolutas
observadas e µ = x̄ - é a média da população. Para este texto, em todos os casos onde
nada for dito, usaremos as fórmulas da população.

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
11

6.3 Desvio Padrão


Esta é uma das medidas de dispersão absoluta mais importante na Estatística para análise
da dispersão. Em termos práticos, recorre-se a esta medida pelo facto de ter fácil interpreta-
ção,como foi realçado no estudo da variância. Para o cálculo do valor do desvio padrão
basta encontrar a raiz quadrada da variância. O desvio padro da amostra e da população
são denotados respectivamente por s e σ .

6.3.1 Fórmulas para o cálculo da desvio padrão de uma amostra

(a) Para dados não agrupados


v
u n
uX
s u (xi − x̄)2
2 2 2 2
(x1 − x̄) + (x2 − x̄) + (x3 − x̄) + · · · + (xn − x̄)
u
t i=1
s= =
n−1 n−1

(b) Para dados agrupados


v
u n
uX
s u (xi − x̄)2 fi
2 2 2 2
(x1 − x̄) f1 + (x2 − x̄) f2 + (x3 − x̄) f3 + · · · + (xn − x̄) fn t i=1
u
s= =
n−1 n−1

6.3.2 Fórmulas para o cálculo da variância desvio padrão de uma população

(a) Para dados não agrupados


v
uXn
(xi − x̄)2
u
r u
(x1 − x̄)2 + (x2 − x̄)2 + (x3 − x̄)2 + · · · + (xn − x̄)2 t
i=1
σ= =
n n

(b) Para dados agrupados


v
uXn
(xi − x̄)2 fi
u
r u
(x1 − x̄)2 f1 + (x2 − x̄)2 f2 + (x3 − x̄)2 f3 + · · · + (xn − x̄)2 fn t
i=1
σ= =
n n

6.4 Coeciente de Variação


Esta é uma medida de dispersão relativa (também chamado de Coeciente de Variação de
Pearson), útil em termos comparativos quando as variáveis têm unidades diferentes, a sua
fórmula de cálculo é:
σ
CVp =

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
12

Esta medida pode ser dada na forma de percentagem, para isso, faça:

σ
CVp = × 100%

Caso a distribuição represente uma população, substitua s por σ .

7 Medidas de Assimetria e Curtose


7.1 Medidas de Assimetria
A assimetria é o desvio ou afastamento da simetria por uma curva de frequências. Quanto a
assimetria uma curva pode ser:

7.1.1 Simétrica

Uma distribuição é considerada simétrica se x̄ = Me = Mo . A distribuição simétrica apresenta


a conguração abaixo (Figura 2).

Figura 2: Distribuição Simétrica

7.1.2 Assimétrica Positiva

Uma distribuição é considerada assimétrica positiva se Mo < Me < x̄. A distribuição


assimétrica positiva apresenta a conguração abaixo (Figura 3).

Figura 3: Distribuição Assimétrica Positiva

7.1.3 Assimétrica Negativa

Uma distribuição é considerada assimétrica negativa se x̄ < Me < Mo . A distribuição


assimétrica negativa apresenta a conguração abaixo (Figura 4).

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
13

Figura 4: Distribuição Assimétrica Negativa

7.1.4 Coeciente de Assimetria de Pearson

Para além de usar as condições anteriores, recorre - se aos primeiro e segundo coeciente de
assimetria de Pearson para avaliar a assimetria de uma distribuição. Os coecientes são dados
pelas seguintes fórmulas:
x̄ − Mo
e1 =
s
3(x̄ − Me )
e2 =
s
Com base nas fórmulas anteriores, uma distribuição será:

(a) simétrica, se e1 = 0 ou e2 = 0. Neste caso, os valores próximos de zero satisfazem estas


condições;

(b) assimétrica positiva, se e1 > 0 ou e2 > 0;

(c) assimétrica negativa, se e1 < 0 ou e2 < 0;

Caso a distribuição represente uma população, substitua s por σ nas fórmulas dos coecientes
de assimetria.

7.2 Medidas de Curtose


A curtose indica até que ponto uma curva de frequências de uma distribuição se apresenta mais
achatada do que uma curva padrão (curva simétrica). A medida que é usada para avaliar o
grau de curtose de uma distribuição é o coeciente percentílico de curtose, calculado pela
seguinte fórmula:
Q3 − Q1
k=
2(C90 − C10 )

7.2.1 Distribuição Mesocúrtica

Uma distribuição é dita Mesocúrtica se k = 0, 263. A sua conguração é apresentada na


Figura 5.

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021
14

Figura 5: Distribuição Mesocúrtica

7.2.2 Distribuição Platicúrtica

Uma distribuição é dita Platicúrtica se k > 0, 263. A sua conguração é apresentada na


Figura 6.

Figura 6: Distribuição Platicúrtica

7.2.3 Distribuição Leptocúrtica

Uma distribuição é dita Leptocúrtica se k < 0, 263. A sua conguração é apresentada na


Figura 7.

Figura 7: Distribuição Leptocúrtica

MSc.Élio José Taero, Mestre em Estatística, Matemática e Computação,Probabilidades e


Métodos Estatísticos, ISPT - 2021

Você também pode gostar