Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística Descritiva
1 Introdução
Os métodos estatísticos são hoje em dia aplicados em diferentes ramos de actividades, sejam
nas engenharias, ciências sociais e humanas, medicina, economia, ciências contábeis, e entre
outros, pois os seus métodos auxiliam na organização e interpretação de dados gerados (ou
obtidos) nestas áreas, facilitando a tomada de decisões a partir destes.
A Estatística como ciência é organizada (ou dividida) em dois grandes campos, devido a forma
como os dados são analisados, nomeadamente, a Estatística Descritiva, cujos os objectivos
são descrição, análise e intepretação de dados colectados ou gerados, enquanto que o outro
campo, é a Inferência Estatística, cujo é realizar inferências, ou seja a generalização de
resultados particulares, e esta, está associada às Probabilidades que quanticam a incerteza
neste processo.
2 Conceitos Básicos
Em seguida, serão apresentados conceitos básicos, que são aplicados com uma grande frequência
no estudo de métodos estatísticos.
2.2 Amostra
Uma amostra, outro conceito de grande importância, é um subconjunto não vazio da popu-
lação. O tratamento estatístico a partir de uma amostra apresenta-se vantajoso em termos
económico, de economia de tempo, entre outros. Dependendo do tipo de amostragem, tema
a ser abordado na Teoria de Amostragem, o seu uso requer cuidado, pois tratando-se de um
processo probabilístico ela deve ser aleatória, representativa, ampla e não viciada.
variáveis estatísticas. A variáveis estatísticas podem ser quantitativas são expressas numeri-
camente) ou qualitativas (também chamadas de atributos, que geralmente não são expressas
numericamente. Em alguns casos podem assumir a escala numérica). As variáveis quantitativas
podem ser discretas, quando assumem valores discretos (ou seja são representados por números
inteiros) e contínuas, quando não assumem valores discretos (ou seja, podem ser representados
números decimais ). As variáveis qualitativas podem ser nominais, quando as suas catego-
rias não apresentam relação de ordem, e ordinais se as suas categorias apresentam relação de
ordem.A gura 1, ilustra a classicação de uma variável estatística.
Variável Estatística
Quantitativa Qualitativa
3 Distribuição de Frequências
3.1 Elementos de uma Distribuição de Frequências
Para elaborar uma tabela de frequências de dados agrupados ou não em classes, é necessário,
apresentar alguns termos usados neste processo. Assim,tem-se:
fi
f ri = n
X
fi
i=1
As frequências relativas podem ser presentadas na forma de percentagem, para isso faça:
fi
f ri = n × 100%
X
fi
i=1
4. Dados Brutos: são os dados não prontos para uma análise por não estarem organizados
(ordenados).
5. Rol Estatistico (também tratado por Rol): é organização dos dados brutos em ordem
crescente ou decrescente.
6. Amplitude Total, denotada AT , é a diferença entre o maior (xmax ) e o menor (xmin ) valor
observado para um conjunto de dados observados. A expressão matemática é:
AT = xmax − xmin
7. Ponto médio da classe (ou centro da classe) é a média aritmética entre os limites inferior
e superior da classe. Geralmente, representa-se por xi e calcula-se da seguinte forma:
lsup − linf
xi =
2
onde:
8. Número de Classes, denotado por k , pode ser determinado por vários critérios , neste
texto serão destacados os seguintes:
(a) Critério Arbitrário: O número de classes depende do pesquisador, mas deve obedecer
o seguinte condição
5 6 k 6 20
Na prática, recomenda-se para além da condição quanto maior o número dados maior
deve ser o número de classes
(b) Critério da Raíz: obedece ao resultado
5
n 6 25
k=
√n , n > 25
Em todos casos, para questões de cálculo, o valor de k deve ser arrendondado por excesso
se não for inteiro.
9. Amplitude do Intervalo da Classe, denotada por h,é a diferença entre o limite superior
e inferior da classe.
AT
h=
k
Para este caso de dados agrupados em classes, xi representa o ponto médio (também chamado
de centro) da classe e fi representa a frequência da classe.
Para este caso de dados agrupados em classes, xi representa o ponto médio (também chamado
n
X
de centro) da classe , fi representa a frequência da classe e N = fi .
i=1
1 1
x̄H = = n
1 1 1 1 X 1
+ + + ··· +
x1 x2 x 3 xn x
i=1 i
N N
x̄H = = n
f1 f2 f3 fn X fi
+ + + ··· +
x1 x2 x 3 xn x
i=1 i
Para este caso de dados agrupados em classes, xi representa o ponto médio (também chamado
n
X
de centro) da classe , fi representa a frequência da classe e N = fi .A média harmónica é
i=1
útil para o tratamento de grandezas inversamente proporcionais.
4.4 Moda
A moda, denotada por Mo , é o valor que ocorre com maior frequência numa distribuição (
ou conjunto de dados). O termo moda foi introduzido por Karl Pearson em 1895. A moda
para um conjunto de dados não agrupados em classes é o valor mais predominante ou seja que
possui maior frequência. Existem distribuições plurimodais ( que possuem mais de uma moda)
e amodais ( que não possuem a moda).
Para o caso de dados apresentados em uma tabela de frequências com dados agrupados em
classes, a moda pode ser calculada a partir da fórmula de Czuber :
∆1
Mo = lMo + h
∆1 + ∆2
onde:
lMo - limite inferior da classe modal (classe que apresenta maior frequência);
∆1 - Diferença entre a frequência da classe modal e a imediatamente anterior;
∆2 - Diferença entre a frequência da classe modal e a imediatamente posterior;
h - amplitude da classe modal.
4.5 Mediana
A mediana, denotada por Me ,é uma medida que divide um conjunto de dados de tal forma
que pelo menos a metade deles são maiores ou iguais a ela (mediana). Por outra forma, a
mediana divide um conjunto de dados em duas partes iguais, isto é, ela deixa o mesmo número
de elementos antes e depois dela.Para dados não agrupados em classes, o valor da mediana é
determinado através das seguintes etapas:
(a) par, a mediana será igual a média aritmética dos termos centrais;
(b) ímpar, a mediana será igual ao termo central.
Para dados agrupados em classes, o valor da mediana é dado pela seguinte fórmula:
n X
+ Fa
2
Me = lMe + h
f Me
onde:
Para determinar a classe mediana, é necessário determinar o valor do elemento mediano, que é
calculado pela expressão:
n
EMe =
2
Então, se EMe é:
1. par, a classe mediana será aquela que conter o valor (o valor representa uma posição) do
elemento mediano calculado e o da posição seguinte;
2. ímpar, a classe mediana será aquela que conter o valor (o valor representa uma posição) do
elemento mediano arredondado (sempre por excesso) depois de calculado;
5 Medidas de Posição
5.1 Quartis
Os quartis, denotados por Qi ( com i = 1,2 e 3), dividem um conjunto de dados em quatro
partes iguais. Para os quartil de ordem i , a posição do quartil a ser calculado, é dado pela
expressão:
in
EQi =
4
onde: i - número do quartil a ser calculado e n - número de dados observados.Quando EQi for
par, o quartil em causa vai ser determinado pela média aritmética entre o elemento da posição
calculada ( valor inteiro encontrado pela fórmula) e o da posição seguinte. Caso EQi , for
ímpar, a posição do quartil serà o valor inteiro obtido (sempre arredondado por excesso).As
regras anteriores servem também para determinar a classe quartil de ordem i. Para determinar
essas posições os conjuntos devem ser ordenados de forma crescente, antes de forem calculadas
as posições. Para dados agrupados em classes, o quartil é estimado pela seguinte fórmula:
in X
+ F Qi
4
Qi = lQi + h
fQi
onde:
5.2 Decis
Os decis, denotados por Di ( com i = 1, 2, 3, · · · , 9), dividem um conjunto de dados em dez
partes iguais. Para os decis de ordem i , a posição do decil a ser calculado, é dado pela expressão:
in
EDi =
10
onde: i - número do decil a ser calculado e n - número de dados observados. Quando EDi for
par, o decil em causa vai ser determinado pela média aritmética entre o elemento da posição
calculada ( valor inteiro encontrado pela fórmula) e o da posição seguinte. Caso EDi , for
ímpar, a posição do decil serà o valor inteiro obtido (sempre arredondado por excesso). As
regras anteriores servem também para determinar a classe decil de ordem i. Para determinar
essas posições os conjuntos devem ser ordenados de forma crescente, antes de forem calculadas
as posições. Para dados agrupados em classes, o decil é estimado pela seguinte fórmula:
in X
+ FDi
10
Di = lDi + h
fDi
onde:
5.3 Centis
Os centis (também chamados de percentis), denotados por Ci ( com i = 1, 2, 3, · · · , 99), dividem
um conjunto de dados em cem partes iguais. Para os centis de ordem i , a posição do centil a
ser calculado, é dado pela expressão:
in
ECi =
100
onde: i - número do centil a ser calculado e n - número de dados observados. Quando ECi for
par, o centil em causa vai ser determinado pela média aritmética entre o elemento da posição
calculada ( valor inteiro encontrado pela fórmula) e o da posição seguinte. Caso ECi , for
ímpar, a posição do centil serà o valor inteiro obtido (sempre arredondado por excesso). As
regras anteriores servem também para determinar a classe centil de ordem i. Para determinar
essas posições os conjuntos devem ser ordenados de forma crescente, antes de forem calculadas
as posições. Para dados agrupados em classes, o centil é estimado pela seguinte fórmula:
in X
+ FCi
100
Ci = lCi + h
f Ci
onde:
6 Medidas de Dispersão
6.1 Introdução
As medidas de dispersão tem grande utilidade para determinar o grau de dispersão entre os
valores observados e o seu promédio ( muitas das vezes, é a média aritmética). Nos casos em que
as médias de dois conjuntos são iguais (ou aproximadamente iguais) ou quando se pretenda saber
como estão distribuidos os dados neste conjunto analisado ( porque a média não dá informação
sobre a distribuição dos dados, ou sejam como variam em relação a média), são esses casos em
que as medidas de dispersão tem grande importância. Existem várias medidas de dispersão,
mas neste texto serão destacadas a variância, desvio padrão e coeciente de variação.
6.2 Variância
A variância é uma medida de dispersão absoluta. Ela determina o grau de variação ( como já foi
realçado antes) entre os dados e a média. Na Estatística a variância nâo tem muito signicado
porque as unidades das observações ou dados observados, são elevadas ao quadrado,dicultando
a sua interpretação estatística. Por esta razão recorre se na maioria das vezes ao desvio
padrão.
n
X
(xi − x̄)2
2 2 2 2
(x1 − x̄) + (x2 − x̄) + (x3 − x̄) + · · · + (xn − x̄) i=1
s2 = =
n−1 n−1
n
X
(xi − x̄)2 fi
2 2 2 2
(x1 − x̄) f1 + (x2 − x̄) f2 + (x3 − x̄) f3 + · · · + (xn − x̄) fn i=1
s2 = =
n−1 n−1
n
X
(xi − x̄)2
2 2 2 2
(x1 − x̄) + (x2 − x̄) + (x3 − x̄) + · · · + (xn − x̄) i=1
σ2 = =
n n
n
X
(xi − x̄)2 fi
2 2 2 2
(x1 − x̄) f1 + (x2 − x̄) f2 + (x3 − x̄) f3 + · · · + (xn − x̄) fn i=1
σ2 = =
n n
Para os dois casos apresentados, tem-se: xi - representa cada um dos valores observados e n
- é a quantidade dos dados observados (no caso da amostra, é o tamanho da amostra e no
caso da população, refere-se ao tamanho ao tamanho da população ).Para dados agrupados em
classe, xi - é ponto médio de cada classe , fi - representa cada uma das frequências absolutas
observadas e µ = x̄ - é a média da população. Para este texto, em todos os casos onde
nada for dito, usaremos as fórmulas da população.
Esta medida pode ser dada na forma de percentagem, para isso, faça:
σ
CVp = × 100%
x̄
7.1.1 Simétrica
Para além de usar as condições anteriores, recorre - se aos primeiro e segundo coeciente de
assimetria de Pearson para avaliar a assimetria de uma distribuição. Os coecientes são dados
pelas seguintes fórmulas:
x̄ − Mo
e1 =
s
3(x̄ − Me )
e2 =
s
Com base nas fórmulas anteriores, uma distribuição será:
Caso a distribuição represente uma população, substitua s por σ nas fórmulas dos coecientes
de assimetria.