Est Desc Vrs16out

Estatística Descritiva
Diz-se que deixámos de ser uma sociedade industrial para passarmos

a ser uma sociedade de informação, onde é necessário tomar decisões
rápidas e bem fundamentadas.
A Estatística fornece métodos que auxiliam o processo de tomada

de decisão através da análise dos dados disponíveis. Está dividida
em duas áreas:
Estatística Descritiva: conjunto de técnicas apropriadas

para sumariar a informação recolhida de uma amostra de uma
população, de modo a melhor interpretar essa informação;
Estatística Inferencial: conjunto de técnicas que, com

base na informação recolhida de uma amostra de uma
população, permitem tirar conclusões sobre essa população.
A quanticação da incerteza associada às conclusões é feita com
recurso ao cálculo de probabilidades.
Hugo Alonso, ULP - 2019/2020 1

População: grupo de todos os elementos que se pretende estudar
relativamente a um ou mais atributos que todos possuem.
O valor dos atributos pode variar de elemento para elemento da

população. Diz-se, por isso, que os atributos são variáveis.
As medidas relativas a uma população designam-se por parâmetros.

Os parâmetros são xos, isto é, não variam. No entanto, são muitas
vezes desconhecidos, uma vez que muitas vezes não é possível aceder
a todos os elementos da população. São exemplos de parâmetros:
N : tamanho da população;
µ: média da população;
σ : desvio-padrão da população.
Exemplo: suponha que se pretende estudar a idade, em anos, na

população correspondente a todos os alunos que, no primeiro dia de
aulas, estão inscritos numa certa disciplina. Admita que há um total
de quatro alunos, ou seja, que o tamanho da população é N = 4.
A idade é um atributo que todos possuem. Trata-se de uma variável
dado que o valor da idade pode variar de aluno para aluno. A idade
média na população, representada por µ, é uma medida relativa à
população e, portanto, diz-se um parâmetro. Se não for possível
inquirir todos quanto à idade, não é possível conhecer a idade média
na população:

Aluno Idade (anos)
Gonçalo 18
Inês 19
João ?
Maria 20
Idade média na população : µ = 18+19+?+20

4 = ?? anos
Amostra: subgrupo da população selecionado para análise.
As medidas relativas a uma amostra designam-se por estatísticas.

As estatísticas são variáveis, pois o valor que tomam pode variar de
amostra para amostra. Numa amostra conhecida, tem-se o seguinte
para valor de algumas estatísticas:
n: tamanho da amostra;
x̄: média da amostra;
s: desvio-padrão da amostra.
Exemplo: no exemplo anterior, o grupo de quatro alunos corresponde

à população e o subgrupo de três alunos que se inquiriu e cujas idades
são conhecidas corresponde a uma amostra. O tamanho da amostra a
que se teve acesso é então n = 3. A idade média numa amostra é uma
medida relativa a uma amostra e, portanto, diz-se uma estatística. No
caso particular da amostra conhecida, o valor desta estatística é:
18 + 19 + 20
Idade média na amostra : x̄ = = 19 anos
3

Etapas na resolução de um problema estatístico:

Classicação de dados
Os atributos ou variáveis que se pretende estudar nos elementos de

uma população podem ser classicados em função do modo como são
medidos. Esta classicação é importante pois determina o modo
como os dados devem ser tratados e analisados.
Tem-se as seguintes possibilidades:

 

 nominal
qualitativa






 ordinal


Variável:

 


 contínua
quantitativa





 discreta
qualitativa (numérica ou não numérica): a variável representa

qualidades, categorias ou classes e não faz sentido operar com os
valores que toma, como adicioná-los, mesmo que sejam numéricos;
qualitativa nominal: não há uma relação de ordem natural

entre os valores da variável;
Exemplo: sexo de um indivíduo, registado como feminino (0)
ou masculino (1).
Nota: a representação de feminino como 0 e de masculino como
1 é apenas uma codicação, arbitrária, não tendo qualquer signi-
cado quantitativo.

qualitativa ordinal: há uma relação de ordem natural entre os
valores da variável;
Exemplo: qualidade de um vinho, registada como má (1),
razoável (2) ou boa (3).
Nota: a representação de má como 1, de razoável como 2 e de boa
como 3 é apenas uma codicação, arbitrária, não tendo qualquer
signicado quantitativo. Note que, apesar de arbitrária, a codi-
cação respeita a ordem dos valores: má = 1 < razoável = 2 <
boa = 3.
quantitativa (numérica): a variável representa quantidades,

resultantes de contagens ou de medições, e faz sentido operar
com os valores que toma, como adicioná-los;
quantitativa contínua: a variável pode tomar qualquer valor

num intervalo de números;
Exemplo: temperatura de um local, medida em graus Celsius.
quantitativa discreta: a variável toma apenas valores isola-

dos, ou seja, não é verdade que possa tomar qualquer valor num
intervalo de números;
Exemplo: número de clientes de uma empresa.
Fornecido um conjunto de dados, recorre-se a tabelas, grácos e me-

didas estatísticas para sumariar a informação e em seguida analisá-la.
As tabelas e os grácos que se constroem e as medidas estatísticas que
se calculam variam com a natureza dos dados, isto é, são diferentes
para dados nominais, ordinais e quantitativos.

Representação tabular de dados univariados
Dados univariados são dados de uma só variável. A sua representação

tabular é um resumo da informação registada.
Tabela de frequências: tabela que disponibiliza um acesso rápido

ao número (frequência absoluta) e à proporção (frequência relativa)
de observações de uma variável com um determinado valor ou num
intervalo de valores (classe de valores).
Notação geral (símbolos convencionados):

x1 , . . . , x n observações da variável
n número total de observações
k número de valores distintos ou de classes de valores
ni frequência absoluta do valor ou classe de valores i
fi = ni
n frequência relativa do valor ou classe de valores i
Ni = n1 + . . . + ni frequência absoluta acumulada do valor ou
classe de valores i
Fi = f1 + . . . + fi frequência relativa acumulada do valor ou
=
Ni classe de valores i
n

Tabela para dados nominais
Observações: x1, . . . , xn
Valores distintos: x01, . . . , x0k
Tabela de frequências:
Valores distintos Freq. abs. Freq. rel.

(x0i ) (ni ) (fi )
n1
x01 n1 f1 = n
n2
x02 n2 f2 = n
.. .. ..
. . .
nk
x0k nk fk = n
Total n 1
Breve interpretação:
n1 representa o número de vezes que foi observado o valor x01
f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01
Exemplo: perguntou-se a várias pessoas qual o seu estado civil:

casado (1), divorciado (2), solteiro (3) ou viúvo (4)? Registou-se o
seguinte: 3, 4, 3, 2, 3, 1, 3, 1. A variável em estudo é o estado civil de
um indivíduo e é qualitativa nominal. Tem-se n = 8 observações para
a variável, x1 = 3, x2 = 4, . . . , x7 = 3, x8 = 1, mas apenas k = 4 são
distintas, x01 = 1, x02 = 2, x03 = 3, x04 = 4. A tabela de frequências
que resume a informação registada é a seguinte:

Estado civil N.º de indivíduos Prop. de indivíduos
(x0i ) (ni ) (fi )
casado (1) 2 0.250
divorciado (2) 1 0.125
solteiro (3) 4 0.500
viúvo (4) 1 0.125
Total 8 1.000
Com base na tabela, é possível dizer, por exemplo, que 4 dos 8 indi-
víduos envolvidos no estudo, ou seja, 50%, são solteiros.
Tabela para dados ordinais ou quantitativos discretos com

poucos valores distintos
Valores distintos, por ordem crescente: x01 < . . . < x0k
Valores distintos Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(x0i ) (ni ) (fi ) (Ni ) (Fi )
n1
x01 n1 f1 = n N1 = n1 F1 = f1
n2
x02 n2 f2 = n N2 = n1 + n2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
nk
x0k nk fk = n Nk = n Fk = 1
Total n 1

n1 representa o número de vezes que foi observado o valor x01
f1 = n1
o valor x01
N2 = n1 + n2 representa o número de vezes que foi observado um
valor menor ou igual a x02
F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor ou igual a x02
Exemplo: perguntou-se a várias crianças qual o nível de ensino que

frequentam: 1.º ciclo (1), 2.º ciclo (2) ou 3.º ciclo (3)? Registou-se o
seguinte: 3, 3, 1, 3, 2, 1, 1, 2, 3. A variável em estudo é o nível de
ensino frequentado por um indivíduo e é qualitativa ordinal. Tem-se
n = 9 observações para a variável, x1 = 3, x2 = 3, . . . , x8 = 2, x9 = 3,
mas apenas k = 3 são distintas, x01 = 1 < x02 = 2 < x03 = 3, por ordem
crescente. A tabela de frequências que resume a informação registada
é a seguinte:
N.º de Prop. de N.º acum. de Prop. acum. de

Nível de ensino
crianças crianças crianças crianças
(x0i ) (ni ) (fi ) (Ni ) (Fi )
1.º ciclo (1) 3 0.333 3 0.333
2.º ciclo (2) 2 0.222 5 0.555
3.º ciclo (3) 4 0.444 9 1.000
Total 9 1.000

Com base na tabela, é possível dizer, por exemplo, que 5 dos 9 indi-
víduos envolvidos no estudo, ou seja, cerca de 56%, frequentam um
nível de ensino que não ultrapassa o 2.º ciclo.
Exemplo: um clínico decidiu estudar o número de acidentes de tra-

balho por prossional de saúde que ocorreram no último ano no seu
hospital. A variável em estudo, o número de acidentes por prossional,
é quantitativa discreta. O clínico investigou e registou 397 valores para
a variável, um por cada um de 397 prossionais: 0, 1, 2, 1, 1, 2, 0, ....
Em seguida, sumariou a informação obtida na seguinte tabela de fre-
quências:
N.º de acidentes N.º de Prop. de N.º acum. de Prop. acum. de

por prossional prossionais prossionais prossionais prossionais
(x0i ) (ni ) (fi ) (Ni ) (Fi )
0 16 0.040 16 0.040
1 32 0.081 48 0.121
2 89 0.224 137 0.345
3 137 0.345 274 0.690
4 98 0.247 372 0.937
5 25 0.063 397 1.000
Total 397 1.000
Com base na tabela, é possível dizer, por exemplo, que 32 prossionais,

que correspondem a cerca de 8% de todos os envolvidos no estudo,
sofreram 1 acidente, e que 274 prossionais, que correspondem a cerca
de 69% do total, sofreram, no máximo, 3 acidentes.

Tabela para dados quantitativos contínuos ou quantitativos
discretos com muitos valores distintos
Uma variável quantitativa contínua pode tomar qualquer valor num

intervalo de números e, portanto, é alta a possibilidade de se obser-
var muitos valores distintos. Neste contexto, não faz muito sentido
considerar as frequências absolutas e relativas dos valores observados;
a tabela resultante não seria um verdadeiro resumo da informação
registada. Denem-se então intervalos de valores (classes de valores)
e consideram-se as frequências absolutas e relativas desses intervalos
(classes). O mesmo aplica-se quando a variável é quantitativa discreta
e são observados muitos valores distintos.
Construção das classes de valores:

1. Determinar o número k de classes (regra de Sturges):

ln(n)

k= + 1,
ln(2)
onde b·c representa a parte inteira do número ·
2. Determinar a amplitude total a do conjunto de dados:
a = M − m,
onde M é o maior valor observado e m o menor

3. Determinar a amplitude ac de cada classe:
a
ac =
k

4. Construir as classes c1, . . . , ck da seguinte forma:
c1 = [m, m + ac[
c2 = [m + ac, m + 2 × ac[
...
ck = [m + (k − 1) × ac, m + k × ac]
Construção da tabela de frequências:
Classes: c1 = [L1, U1[, . . . , ck = [Lk , Uk ]
Pontos médios das classes: x01 < . . . < x0k , sendo o ponto médio da
classe ci = [Li, Ui[ dado por
Li + U i
x0i =
2
Classes P. médios Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
L1 +U1 n1
c1 = [L1 , U1 [ x01 = 2 n1 f1 = n N1 = n1 F1 = f1
L2 +U2 n2
c2 = [L2 , U2 [ x02 = 2 n2 f2 = n N2 = n1 + n2 F2 = f1 + f2
.. .. .. .. .. ..
. . . . . .
Lk +Uk nk
ck = [Lk , Uk ] x0k = 2 nk fk = n Nk = n Fk = 1
Total n 1

n1 representa o número de vezes que foi observado um valor na

classe c1
f1 = n1
um valor na classe c1
x01 é o valor da classe c1 que se escolhe para representar, de forma
aproximada, cada um dos valores observados nesta classe
N2 = n1 + n2 representa o número de vezes que foi observado um
valor menor que o limite superior U2 da classe c2
F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor que o limite superior U2 da classe c2
Exemplo: um gestor decidiu estudar a produção diária da sua empre-
sa, medida em toneladas. A variável em causa é quantitativa contínua.
Os resultados registados em 60 dias foram os seguintes:
4.1 5.8 5.8 6.1 6.7 7.0 7.0 7.5 7.5 7.5 7.7 8.2
8.8 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 9.2 9.4 9.4
9.7 9.8 10.0 10.0 10.2 10.2 10.3 10.6 10.6 10.8 10.9 10.9
11.6 11.7 11.8 11.8 11.8 12.0 12.2 12.2 12.3 12.5 12.6 12.7
8.3 9.4 11.0 14.0 8.5 9.5 11.1 14.2 8.7 9.5 11.1 14.8
O primeiro passo para sumariar esta informação consiste em construir

as classes em que os dados vão ser agrupados, determinando:
1. Número de classes:
ln(n) ln(60)

k= +1= + 1 = b5.906 . . .c + 1 = 5 + 1 = 6
ln(2) ln(2)

2. Amplitude total do conjunto de dados:
a = M − m = 14.8 − 4.1 = 10.7
3. Amplitude de cada classe:

a 10.7
ac = = = 1.783 . . . ≈ 1.8
k 6
4. Classes:
c1 = [4.1, 4.1 + 1.8[ = [4.1, 5.9[ c4 = [9.5, 11.3[
c2 = [5.9, 5.9 + 1.8[ = [5.9, 7.7[ c5 = [11.3, 13.1[
c3 = [7.7, 7.7 + 1.8[ = [7.7, 9.5[ c6 = [13.1, 14.9]
Uma vez determinadas as classes em que os dados registados devem

ser agrupados, obtém-se a seguinte tabela de frequências, que resume
então a informação disponível sobre a produção da empresa:
Produção diária (t) Pontos N.º de Prop. de N.º acum. de Prop. acum. de
Classes médios dias dias dias dias
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
[4.1, 5.9[ 5 3 0.050 3 0.050
[5.9, 7.7[ 6.8 7 0.117 10 0.167
[7.7, 9.5[ 8.6 18 0.300 28 0.467
[9.5, 11.3[ 10.4 17 0.283 45 0.750
[11.3, 13.1[ 12.2 12 0.200 57 0.950
[13.1, 14.9] 14 3 0.050 60 1.000
Total 60 1.000
Com base na tabela, é possível dizer, por exemplo, que a produção foi
inferior a 11.3 toneladas em 75% dos dias considerados e que se situou

entre as 13.1 e as 14.9 toneladas, ou seja, foi aproximadamente igual
a 14 toneladas, em 5% dos dias em análise.
Medidas estatísticas comuns para dados univariados
A representação tabular de dados univariados, vista anteriormente,

permite conhecer a distribuição de frequências de uma variável para
a amostra que se está a considerar. As medidas estatísticas indicadas
a seguir descrevem características dessa distribuição.
Medidas estatísticas para dados quantitativos
Moda: representa-se por x̂ e é o valor que ocorre com maior

frequência. No caso de os dados estarem agrupados em classes,
identica-se a classe modal, isto é, com maior frequência, e o ponto
médio dessa classe fornece uma aproximação da moda.
Nota: se a moda for única, a distribuição diz-se unimodal. No caso de

haver mais do que um valor com igual frequência, sendo essa frequên-
cia máxima, a moda não é única e a distribuição diz-se multimodal.
Finalmente, no caso de todos os valores terem igual frequência, a moda
não existe e a distribuição, que é uniforme, diz-se amodal.
Exemplo: voltando ao exemplo do clínico que decidiu estudar o

número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se que a moda é x̂ = 3
acidentes e, por ser única, a distribuição é unimodal.

Exemplo: voltando ao exemplo do gestor que decidiu estudar a
produção diária da sua empresa, medida em toneladas, e conside-
rando os dados já agrupados em classes, tem-se que a classe modal é
[7.7, 9.5[ t e a moda é x̂ ≈ 8.6 t e, por serem únicas, a distribuição é
unimodal.
Média: representa-se por x̄, trata-se de um valor de compromisso

das observações x1, . . . , xn e é dada por
x1 + . . . + xn
x̄ =
n
n1 × x01 + . . . + nk × x0k
=
n
= f1 × x01 + . . . + fk × x0k

reram no último ano no seu hospital, tem-se que a média é dada por
16 × 0 + 32 × 1 + . . . + 25 × 5
x̄ = ≈ 2.9 acidentes
397
ou
x̄ = 0.040 × 0 + 0.081 × 1 + . . . + 0.063 × 5 ≈ 2.9 acidentes.

produção diária da sua empresa, medida em toneladas, e conside-
rando os dados já agrupados em classes, tem-se que a média é dada
por
3 × 5 + 7 × 6.8 + . . . + 3 × 14
x̄ = = 9.71 t
60
ou
x̄ = 0.050 × 5 + 0.117 × 6.8 + . . . + 0.050 × 14 = 9.71 t.
Média ponderada: representa-se por x̄w , trata-se de um valor

de compromisso das observações x1, . . . , xn, tendo em conta
ponderações w1, . . . , wn positivas que reectem a sua importância,
e é dada por
w1 × x1 + . . . + wn × xn
x̄w =
w1 + . . . + wn
Nota: a média x̄ é um caso particular da média ponderada x̄w , com

w1 = 1, . . . , wn = 1, ou seja, onde se dá a mesma importância a todas
as observações x1, . . . , xn.

Exemplo: um aluno obteve as seguintes classicações a três discipli-
nas, A, B e C:
Disciplina ECTS Classicação (valores)

A 6 10
B 3 14
C 3 15
A classicação média é dada por

10 + 14 + 15
x̄ = = 13 valores
3
e a classicação média ponderada pelos ECTS é dada por
6 × 10 + 3 × 14 + 3 × 15
x̄w = = 12.25 valores.
6+3+3
No primeiro caso, dá-se a mesma importância às classicações obtidas
nas três disciplinas. No segundo caso, dá-se maior importância à
classicação obtida na disciplina A, cujo ECTS é maior.

É importante medir a dispersão das observações x1, . . . , xn em torno
da média x̄. Só assim é possível ter uma ideia sobre se a média é
ou não uma boa aproximação dessas observações. De facto, quanto
menor for a dispersão, melhor a média representa as observações. A
primeira medida de dispersão que se vai introduzir é o desvio-padrão.
Desvio-padrão: representa-se por s e é calculado da seguinte forma:

obtém-se primeiro a variância s2 :
2 (x1 − x̄)2 + . . . + (xn − x̄)2

s =
n−1
n1 × x012 + . . . + nk × x0k2 − n × x̄ 2
=
n−1
n
× f1 × (x01 − x̄)2 + . . . + fk × (x0k − x̄)2

=
n−1
e calcula-se em seguida o desvio-padrão s:
√
s= s2
Nota: o desvio-padrão s é sempre maior ou igual a 0: é igual 0 quando

não há dispersão em torno da média (todas as observações são iguais
à média); caso contrário, se não for igual a 0, é tanto maior quanto
maior for a dispersão em torno da média.

reram no último ano no seu hospital, apresenta-se a seguir uma forma
de organizar os cálculos conducentes à média e ao desvio-padrão:
x0i ni ni × x0i x0i 2 ni × x0i 2

0 16 0 0 0
1 32 32 1 32
2 89 178 4 356
3 137 411 9 1233
4 98 392 16 1568
5 25 125 25 625
Total 397 1138 3814
1138
Média: x̄ = ≈ 2.9 acidentes
397
3814 − 397 × 2.92
Variância: s = 2
≈ 1.2 acidentes 2
397 − 1
√
Desvio-padrão: s = 1.2 ≈ 1.1 acidentes

produção diária da sua empresa, medida em toneladas, e considerando
os dados já agrupados em classes, apresenta-se a seguir uma forma de
organizar os cálculos conducentes à média e ao desvio-padrão:
x0i ni ni × x0i x0i 2 ni × x0i 2

5 3 15 25 75
6.8 7 47.6 46.24 323.68
8.6 18 154.8 73.96 1331.28
10.4 17 176.8 108.16 1838.72
12.2 12 146.4 148.84 1786.08
14 3 42 196 588
Total 60 582.6 5942.76
582.6
Média: x̄ = = 9.71 t
60
5942.76 − 60 × 9.712
Variância: s =
2
≈ 4.84 t2
60 − 1
√
Desvio-padrão: s = 4.84 ≈ 2.20 t

O desvio-padrão é uma medida de dispersão absoluta. Comparando-o
com a média, torna-se possível perceber se a dispersão das observações
em torno dela é ou não alta. Tal comparação é feita mediante o cálculo
do coeciente de variação, medida de dispersão relativa que se vai
introduzir a seguir.
Coeciente de variação: representa-se por CV e é dado por

s
CV = × 100%.
x̄
Nota: quanto menor for o coeciente de variação, melhor a mé-
dia representa as observações que se distribuem em torno dela. Se
CV ' 50%, considera-se que a dispersão das observações em torno
da média é alta e, neste caso, a média é pouco representativa do que
foi observado.

reram no último ano no seu hospital, tem-se o seguinte:
Desvio-padrão: s ≈ 1.1 acidentes
Média: x̄ ≈ 2.9 acidentes
Coeciente de variação: CV = 1.1

2.9 × 100% ≈ 38%

os dados já agrupados em classes, tem-se o seguinte:
Desvio-padrão: s ≈ 2.20 t
Média: x̄ ≈ 9.71 t
Coeciente de variação: CV = 2.20

9.71 × 100% ≈ 23%
Comparando este exemplo com o anterior, é possível dizer que, neste

caso, a média representa melhor o que foi observado, uma vez que o
coeciente de variação é menor.

As medidas estatísticas a seguir são medidas de localização, tal como
a moda e a média.
Percentil p: representa-se por Pp, é um valor que separa os p% de

menores observações dos restantes (100−p)% de maiores observações
e pode ser determinado do seguinte modo:
ordena-se as observações x1 , . . . , xn por ordem crescente:
x(1) ≤ x(2) ≤ . . . ≤ x(n)

p
calcula-se j = ×n
100
se j for um número inteiro, então Pp é a média dos valores que
surgem nas posições j e j + 1:
x(j) + x(j+1)
Pp =
2
se j não for um número inteiro, então Pp é o valor que surge na
posição bjc + 1:
Pp = x(bjc+1)
Quartis: representam-se por Q1, Q2 e Q3, dividem o conjunto de

dados em quatro partes, cada uma com cerca de 25% dos dados, e
são tais que:
Q1 = P25 é o primeiro quartil e corresponde ao percentil 25;
Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde

ao percentil 50;
Q3 = P75 é o terceiro quartil e corresponde ao percentil 75.

reram no último ano no seu hospital, tem-se que:
Q1 = P25 = 2 acidentes:
25
j= × 397 = 99.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(100) = 2
Q2 = x̃ = P50 = 3 acidentes:
50
100
P50 = x(bjc+1) = x(199) = 3
Q3 = P75 = 4 acidentes:
75
100
P75 = x(bjc+1) = x(298) = 4
Assim, é possível dizer que 25% dos 397 prossionais envolvidos no

estudo tiveram, no máximo, 2 acidentes, 50% tiveram, no máximo, 3
acidentes e 75% tiveram, no máximo, 4 acidentes.

os dados já agrupados em classes, tem-se que:
Q1 = P25 = 8.6 t:
25
j= × 60 = 15 é inteiro, logo
100
x(j) + x(j+1) x(15) + x(16) 8.6 + 8.6
P25 = = = = 8.6
2 2 2
Q2 = x̃ = P50 = 10.4 t:
50
100
x(j) + x(j+1) x(30) + x(31) 10.4 + 10.4
P50 = = = = 10.4
2 2 2
Q3 = P75 = 11.3 t:
75
100
x(j) + x(j+1) x(45) + x(46) 10.4 + 12.2
P75 = = = = 11.3
2 2 2
Assim, é possível dizer que em 25% dos 60 dias considerados a produção
foi, no máximo, de 8.6 toneladas, em 50% dos dias foi, no máximo, de
10.4 toneladas e em 75% dos dias foi, no máximo, de 11.3 toneladas.

A próxima medida estatística é uma medida de dispersão, tal como o
desvio-padrão e o coeciente de variação. Neste caso, mede-se a dis-
persão das observações situadas entre o primeiro e o terceiro quartis,
ou seja, ignora-se os 25% de menores observações (antes de Q1) e os
25% de maiores observações (depois de Q3) e mede-se a dispersão dos
50% de observações centrais que restam.
Amplitude interquartil: representa-se por AIQ e é dada por
AIQ = Q3 − Q1.

reram no último ano no seu hospital, tem-se que
AIQ = Q3 − Q1 = 4 − 2 = 2 acidentes.
Assim, se ignorarmos os 25% de prossionais com menor número de

acidentes e os 25% de prossionais com maior número de acidentes, en-
tão, relativamente aos restantes 50% de prossionais, é possível dizer
que houve uma variação de 2 unidades no número de acidentes re-
gistados.

os dados já agrupados em classes, tem-se que
AIQ = Q3 − Q1 = 11.3 − 8.6 = 2.7 t.
Assim, se ignorarmos os 25% de dias de menor produção e os 25%

de dias de maior produção, então, relativamente aos restantes 50%
de dias, é possível dizer que houve uma variação de 2.7 toneladas na
produção.
Medidas estatísticas para dados ordinais

frequência.
Exemplo: voltando ao exemplo do estudo do nível de ensino fre-
quentado por várias crianças, tem-se que a moda é x̂ = 3.º ciclo e,
por ser única, a distribuição é unimodal.
A média, o desvio-padrão e o coeciente de variação não são deter-

minados no caso de dados ordinais. Note que o cálculo destas três
medidas estatísticas, introduzidas anteriormente para dados quanti-
tativos, pressupõe a possibilidade de operar com os valores que a va-
riável toma. Ora, uma variável ordinal é qualitativa e, portanto, não
faz sentido operar com os valores que toma, como adicioná-los, mesmo
que sejam numéricos. Logo, neste contexto, não faz sentido calcular
as três medidas referidas.
Os percentis e, em particular, os quartis podem ser determinados no

caso de dados ordinais, pelo menos em muitas situações. Note que o
cálculo de um percentil, introduzido anteriormente para dados quan-
titativos, nem sempre obriga a operar com os valores que a variável
toma. Há, portanto, situações em que está denido e outras em que
não está, conforme se clarica a seguir.

Percentil p: representa-se por Pp, é um valor que separa os p% de
menores observações dos restantes (100−p)% de maiores observações
e pode ser determinado do seguinte modo:
ordena-se as observações x1 , . . . , xn por ordem crescente:
x(1) ≤ x(2) ≤ . . . ≤ x(n)

p
calcula-se j = ×n
100
se j for um número inteiro, então há duas possibilidades:
se os valores que surgem nas posições j e j + 1 forem iguais,

então Pp é igual a esses valores:
Pp = x(j) = x(j+1)
se os valores que surgem nas posições j e j +1 forem diferentes,

então Pp não está denido
se j não for um número inteiro, então Pp é o valor que surge na
posição bjc + 1:
Pp = x(bjc+1)

Quartis: representam-se por Q1, Q2 e Q3, dividem o conjunto de
dados em quatro partes, cada uma com cerca de 25% dos dados, e
são tais que:
Q1 = P25 é o primeiro quartil e corresponde ao percentil 25;
Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde

ao percentil 50;
Q3 = P75 é o terceiro quartil e corresponde ao percentil 75.

quentado por várias crianças, tem-se que:
Q1 = P25 = 1.º ciclo:

25
100
P25 = x(bjc+1) = x(3) = 1.º ciclo
Q2 = x̃ = P50 = 2.º ciclo:

50
100
P50 = x(bjc+1) = x(5) = 2.º ciclo
Q3 = P75 = 3.º ciclo:

75
100
P75 = x(bjc+1) = x(7) = 3.º ciclo
Assim, é possível dizer que 25% das 9 crianças envolvidas no estudo

frequentam, no máximo, o 1.º ciclo, 50% frequentam, no máximo, o
2.º ciclo e 75% frequentam, no máximo, o 3.º ciclo.

quentado por várias crianças, suponha que são consideradas mais três,
uma frequentadora do 1.º ciclo e duas do 3.º ciclo. Tendo em conta
estas novas observações, a nova tabela de frequências seria a seguinte:
N.º de Prop. de N.º acum. de Prop. acum. de

Nível de ensino
crianças crianças crianças crianças
(x0i ) (ni ) (fi ) (Ni ) (Fi )
1.º ciclo (1) 4 0.33 4 0.33
2.º ciclo (2) 2 0.17 6 0.50
3.º ciclo (3) 6 0.50 12 1.00
Total 12 1.00
Tem-se agora que:
Q1 = P25 = 1.º ciclo:

25
j= × 12 = 3 é inteiro
100
x(j) = x(j+1), pois x(j) = x(3) = 1.º ciclo e x(j+1) = x(4) = 1.º ciclo
P25 = x(j) = x(j+1) = 1.º ciclo
Q2 = x̃ = P50 não está denido:

50
100
x(j) 6= x(j+1), pois x(j) = x(6) = 2.º ciclo e x(j+1) = x(7) = 3.º ciclo
P50 não está denido

(note que não há um valor de compromisso entre 2.º ciclo e 3.º
ciclo)

Q3 = P75 = 3.º ciclo:
75
100
x(j) = x(j+1), pois x(j) = x(9) = 3.º ciclo e x(j+1) = x(10) = 3.º
ciclo
P75 = x(j) = x(j+1) = 3.º ciclo
Assim, é possível dizer que 25% das 12 crianças envolvidas no estudo

frequentam, no máximo, o 1.º ciclo e 75% frequentam, no máximo, o
3.º ciclo. Esta é a interpretação dos percentis 25 e 75, que estão de-
nidos e são iguais a 1.º ciclo e 3.º ciclo, respectivamente. O percentil
50 não está denido e, consequentemente, não pode ser interpretado.
A amplitude interquartil, introduzida anteriormente para dados quan-

titativos, pode ser determinada no caso de dados ordinais, desde que
o primeiro e o terceiro quartis estejam denidos.
Amplitude interquartil: representa-se por AIQ e corresponde ao

número de categorias ou níveis de diferença entre o primeiro e o
terceiro quartis.

quentado por várias crianças, como o primeiro quartil é Q1 = 1.º ciclo
e o terceiro quartil é Q3 = 3.º ciclo, segue que
AIQ = 2 níveis de ensino.
Assim, se ignorarmos os 25% de crianças que frequentam o menor

nível de ensino e os 25% de crianças que frequentam o maior nível de
ensino, então, relativamente aos restantes 50% de crianças, é possível
dizer que há uma variação de 2 níveis no nível de ensino registado.
Medidas estatísticas para dados nominais

frequência.
Exemplo: voltando ao exemplo do estudo do estado civil de várias
pessoas, tem-se que a moda é x̂ = solteiro e, por ser única, a dis-
tribuição é unimodal.
A média, o desvio-padrão e o coeciente de variação não são deter-

minados no caso de dados nominais, uma vez que a variável é qua-
litativa e, portanto, não faz sentido operar com os valores que toma.
Os percentis e, em particular, os quartis também não são deter-
minados no caso de dados nominais, porque o cálculo destas medidas
estatísticas pressupõe a possibilidade de ordenar os valores da variável
e não existe uma relação de ordem natural entre os valores de uma
variável nominal. Deste modo, uma vez que não são calculados os
quartis, também não é determinada a amplitude interquartil.

Em resumo, a próxima tabela indica medidas estatísticas comuns que
são determinadas para cada tipo de variável:
Variável:
Medida: Nominal Ordinal Quantitativa
Moda: x̂
Localização:
1º quartil: Q1 = P25
2º quartil : Q2 = x̃ = P50
3º quartil: Q3 = P75
Média: x̄
Dispersão:
Amplitude interquartil: AIQ

Desvio-padrão: s
Coeciente de variação: CV
Representação gráca de dados univariados
A representação gráca de dados univariados é um complemento à

representação tabular e ao cálculo de medidas estatísticas de dados
de uma só variável.
Grácos usuais e dados envolvidos:

gráco circular: dados qualitativos;
diagrama de barras: dados qualitativos ou quantitativos discretos

com poucos valores distintos;
histograma: dados quantitativos agrupados em classes;
caixa de bigodes: dados quantitativos.

Gráco circular: gráco constituído por um círculo, dividido em
tantas fatias quantos os valores distintos registados na amostra da
variável qualitativa em análise. O tamanho das fatias é determinado
pelas frequências absolutas ou relativas desses valores.
Exemplo: um inquérito, realizado à qualidade do serviço prestado

num gabinete de apoio psicológico, revelou que: 2% dos utentes acha
que é muito má, 2% má, 12% razoável, 30% boa e 54% muito boa. A
representação desta informação com recurso a um gráco circular é a
seguinte:

Diagrama de barras: gráco de barras verticais, espaçadas, onde
cada barra está associada a um dos valores distintos registados na
amostra da variável qualitativa ou quantitativa discreta em análise.
A altura das barras corresponde às frequências absolutas ou relativas
desses valores.

reram no último ano no seu hospital, tem-se o seguinte para diagrama
de barras das frequências absolutas:
Acidentes de trabalho no último ano

137
140
120
98
100
89
N.º de profissionais
80
60
40 32
25
16
20
0
0 1 2 3 4 5
N.º de acidentes por profissional

Histograma: gráco de barras verticais, adjacentes, onde cada
barra está associada a uma das classes em que estão agrupados os
dados na amostra da variável quantitativa em análise. Se as classes
tiverem a mesma amplitude, como é o caso tratado aqui, a altura das
barras pode ser escolhida igual às frequências absolutas ou relativas
dessas classes.

os dados já agrupados em classes, tem-se o seguinte para histograma
das frequências relativas:
Produção em 60 dias
0.35
0.300
0.3 0.283
0.25
0.200
Prop. de dias
0.2
0.15
0.117
0.1
0.050 0.050
0.05
0
4.1 5.9 7.7 9.5 11.3 13.1 14.9
Produção diária (t)

Antes de introduzir a representação gráca designada por caixa de
bigodes, é necessário introduzir a seguinte noção:
Valor atípico ou outlier : trata-se de um valor muito pequeno

ou muito grande em relação à grande maioria dos valores registados
numa amostra de dados quantitativos. Concretizando, diz-se que:
x é um valor atípico ou outlier severo se
x < Q1 − 3 × AIQ
ou
x > Q3 + 3 × AIQ
x é um valor atípico ou outlier moderado se
Q1 − 3 × AIQ ≤ x < Q1 − 1.5 × AIQ
ou
Q3 + 1.5 × AIQ < x ≤ Q3 + 3 × AIQ
Exemplo: perguntou-se a idade a 12 indivíduos e registou-se o se-

guinte, em anos: 14, 20, 29, 31, 32, 32, 33, 33, 34, 36, 43, 51. É fácil
concluir que Q1 = 30, Q3 = 35 e AIQ = 5 anos. Assim, um valor x
na amostra é um valor atípico ou outlier severo se
x < 15 = Q1 − 3 × AIQ
ou
x > 50 = Q3 + 3 × AIQ
ou seja, são valores atípicos ou outliers severos as idades 14 e 51 anos.

Além disso, um valor x na amostra é um valor atípico ou outlier
moderado se
Q1 − 3 × AIQ = 15 ≤ x < 22.5 = Q1 − 1.5 × AIQ
ou
Q3 + 1.5 × AIQ = 42.5 < x ≤ 50 = Q3 + 3 × AIQ
isto é, são valores atípicos ou outliers moderados as idades 20 e 43

anos.
Caixa de bigodes: gráco que contém um rectângulo, a caixa,

dividido em duas partes e que situa os três quartis da amostra da
variável quantitativa em análise. A dois lados do rectângulo es-
tão conectados segmentos, os bigodes, que situam o menor valor
e o maior valor registados na amostra e que não são considerados
atípicos ou outliers. Os valores atípicos ou outliers moderados
surgem identicados com círculos e os severos com asteriscos.
Exemplo: voltando ao exemplo do estudo da idade de 12 indivíduos,

tem-se o seguinte para caixa de bigodes:


Dados bivariados
Suponha que, para cada elemento de uma amostra selecionada para

análise numa população, se observam duas variáveis de interesse. Aos
dados resultantes dá-se o nome de dados bivariados.
Relação entre duas variáveis quantitativas
Diagrama de dispersão: representação gráca de dados bivariados

quantitativos num referencial cartesiano. Cada eixo do referencial diz
respeito a uma das variáveis e cada caso na amostra é representado
por um ponto no gráco.
Exemplo: o gestor de uma loja decidiu estudar a relação entre o

número de anúncios publicitários à loja, exibidos ao m-de-semana,
na televisão, e as vendas na semana seguinte. Para tal, registou o valor
das duas variáveis ao longo de 10 semanas, tendo obtido o seguinte:

Semana N.º de anúncios Vendas (centenas de euros)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
O diagrama de dispersão dos dados registados é o seguinte:

Relação entre anúncios e vendas
65
60
Vendas (centenas de euros)
55
50
45
40
35
1 1.5 2 2.5 3 3.5 4 4.5 5
N.º de anúncios
Observando o gráco, é possível vericar que as vendas tendem a

aumentar quando o número de anúncios publicitários aumenta.

O diagrama de dispersão permite visualizar a relação entre duas va-
riáveis quantitativas. A medida estatística a seguir quantica a asso-
ciação linear entre essas variáveis. A associação é perfeita quando os
pontos no diagrama de dispersão estão dispostos segundo uma linha
reta oblíqua.
Coeciente de correlação de Pearson: representa-se por r,

trata-se de uma medida da associação linear entre duas variáveis
quantitativas X e Y e é dado por
Pn
i=1 xi yi− nxy
r=q P
n 2 2
Pn 2 2

i=1 xi − nx i=1 yi − ny
sendo x̄ a média de X na amostra e ȳ a de Y . O valor de r é um

número no intervalo [−1, 1]. Diz-se que a correlação entre as duas
variáveis é:
desprezável, se 0 ≤ |r| < 0.2;
moderada, se 0.2 ≤ |r| < 0.7;
forte, se 0.7 ≤ |r| ≤ 1.
No caso de a correlação ser moderada ou forte:

se r > 0, então uma variável tende a aumentar quando a outra
aumenta;
se r < 0, então uma variável tende a diminuir quando a outra
aumenta.

Exemplo: voltando ao exemplo do gestor da loja que decidiu estudar
a relação entre o número de anúncios publicitários ao m-de-semana,
X , e as vendas na semana seguinte, Y , tem-se que os cálculos condu-
centes ao coeciente de correlação de Pearson entre X e Y , na amostra
das 10 semanas selecionadas, podem ser organizados da seguinte forma:
xi yi xi y i x2i yi2
2 50 100 4 2500
5 57 285 25 3249
1 41 41 1 1681
3 54 162 9 2916
4 54 216 16 2916
1 38 38 1 1444
5 63 315 25 3969
3 48 144 9 2304
4 59 236 16 3481
2 46 92 4 2116
Total 30 510 1629 110 26576
Assim,
Pn Pn
i=1 xi 30 i=1 yi 510
x= = =3 , y= = = 51
n 10 n 10

e o coeciente de correlação de Pearson é
Pn
i=1 xi yi − n x y
r=q P
n 2 − nx2
Pn 2 2

x
i=1 i y
i=1 i − ny
1629 − 10 × 3 × 51
=p
(110 − 10 × 32) (26576 − 10 × 512)
≈ 0.93.
Como 0.7 ≤ |r| ≤ 1, a correlação entre o número de anúncios publi-

citários e as vendas é forte. Neste contexto, sendo r > 0, regista-se
o que foi observado anteriormente no diagrama de dispersão dos da-
dos, ou seja, que as vendas tendem a aumentar quando o número de
anúncios publicitários aumenta.
Relação entre uma variável qualitativa e uma quantitativa
Tabela de contingência: tabela para representação de dados

bivariados, qualitativos ou quantitativos. As linhas da tabela
dizem respeito a uma das variáveis e as colunas à outra variável.
No interior da tabela, a célula na linha i e na coluna j indica o
número de elementos da amostra em que se regista o valor ou classe
de valores i para a variável das linhas e, simultaneamente, o valor
ou classe de valores j para a variável das colunas. Nas margens da
tabela estão indicados os totais por linha e por coluna.
Exemplo: uma amostra de 300 restaurantes foi selecionada e, para
cada um desses restaurantes, registou-se a qualidade do serviço e o
preço típico por refeição, em euros. Os resultados foram os seguintes:

Restaurante Qualidade Preço por refeição (euros)
1 Razoável 18
2 Muito boa 22
3 Razoável 28
4 Excelente 38
5 Muito boa 33
... ... ...
Agrupando os dados do preço em classes, a tabela de contigência que

sumaria a informação obtida é a seguinte:
Preço por refeição (euros)

Qualidade [10, 20[ [20, 30[ [30, 40[ [40, 50] Total
Razoável 42 40 2 0 84
Muito boa 34 64 46 6 150
Excelente 2 14 28 22 66
Total 78 118 76 28 300
Os totais a azul na margem direita da tabela fornecem a distribuição

de frequências da variável Qualidade. Por exemplo, o mais frequente
foi registar restaurantes (150) com uma qualidade muito boa. Já os
totais a vermelho na margem inferior da tabela fornecem a distribuição
de frequências da variável Preço por refeição. Por exemplo, o menos
frequente foi registar restaurantes (28) com um preço por refeição
no intervalo [40, 50] euros. Assim, os totais nas margens fornecem as
chamadas distribuições marginais e é com base nelas que se realiza
a análise das duas variáveis em separado.

Por outro lado, as frequências a preto no interior da tabela fornecem
a chamada distribuição conjunta das duas variáveis e é com base
nela que se realiza a análise das duas variáveis em conjunto. Por
exemplo, o mais frequente foi registar restaurantes (64) com uma qua-
lidade muito boa e um preço por refeição no intervalo [20, 30[ euros.
Se considerarmos apenas os restaurantes de qualidade razoável, o mais
frequente foi registar valores baixos para o preço por refeição, ao passo
que, considerando apenas os restaurantes de qualidade excelente, o
mais frequente foi registar valores altos para o preço por refeição. O
valor médio do preço por refeição para os restaurantes de qualidade
razoável é dado por
42 × 15 + 40 × 25 + 2 × 35 + 0 × 45
x̄ = ≈ 20.24 euros
84
onde foram usados os pontos médios (15, 25, 35 e 45) das classes em
que as observações do preço foram agrupadas. No caso dos restau-
rantes de qualidade muito boa, o valor médio do preço por refeição é
dado por
34 × 15 + 64 × 25 + 46 × 35 + 6 × 45
x̄ = = 26.60 euros
150
e no caso dos restaurantes de qualidade excelente por
2 × 15 + 14 × 25 + 28 × 35 + 22 × 45
x̄ = ≈ 35.61 euros.
66
Assim, é claro que o preço médio aumenta com a qualidade do serviço.
O facto de o preço tender a aumentar com a qualidade também é

visível na gura seguinte:

Relação entre duas variáveis qualitativas
O estudo da relação entre duas variáveis qualitativas baseia-se na com-

paração de proporções, calculadas por linha ou por coluna na tabela
de contingência que cruza a informação das duas variáveis.
Exemplo: a tabela de contingência seguinte dá conta da distribuição

dos funcionários de uma empresa em função do sexo e da promoção:
Sexo
Promovido Masculino Feminino Total
Sim 4 2 6
Não 12 6 18
Total 16 8 24
Será que a promoção depende do sexo? Em termos absolutos, note que

há mais funcionários do sexo masculino e, portanto, é natural que te-
nham sido promovidos mais homens do que mulheres. Assim, a infor-
mação deve ser analisada em termos relativos e, para tal, calculam-se
as proporções por coluna, indicadas na tabela abaixo entre parênteses:
Sexo
Sim 4 (0.25) 2 (0.25) 6 (0.25)
Não 12 (0.75) 6 (0.75) 18 (0.75)
Total 16 (1.00) 8 (1.00) 24 (1.00)
Repare que 25% dos funcionários foram promovidos e que esta per-
centagem não se altera com o sexo. Logo, a promoção não depende
do sexo.

No caso de uma segunda empresa, a tabela de contingência que dá
conta da distribuição dos funcionários em função do sexo e da pro-
moção é a seguinte:
Sexo
Sim 288 36 324
Não 672 204 876
Total 960 240 1200
Será que, neste caso, a promoção depende do sexo? Calculando as

proporções por coluna, tem-se o seguinte:
Sexo
Sim 288 (0.30) 36 (0.15) 324 (0.27)
Não 672 (0.70) 204 (0.85) 876 (0.73)
Total 960 (1.00) 240 (1.00) 1200 (1.00)
Repare que 27% dos funcionários foram promovidos e que esta per-
centagem se altera com o sexo, sendo igual a 30% no caso dos homens
e apenas 15% no caso das mulheres. Logo, nesta segunda empresa, a
promoção depende do sexo.

Est Desc Vrs16out

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Est Desc Vrs16out

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística Descritiva

Diz-se que deixámos de ser uma sociedade industrial para passarmos

A Estatística fornece métodos que auxiliam o processo de tomada

 Estatística Descritiva: conjunto de técnicas apropriadas

 Estatística Inferencial: conjunto de técnicas que, com

Hugo Alonso, ULP - 2019/2020 1

O valor dos atributos pode variar de elemento para elemento da

As medidas relativas a uma população designam-se por parâmetros.

Exemplo: suponha que se pretende estudar a idade, em anos, na

Hugo Alonso, ULP - 2019/2020 2

Idade média na população : µ = 18+19+?+20

Amostra: subgrupo da população selecionado para análise.

As medidas relativas a uma amostra designam-se por estatísticas.

 x̄: média da amostra;

Exemplo: no exemplo anterior, o grupo de quatro alunos corresponde

Hugo Alonso, ULP - 2019/2020 3

Hugo Alonso, ULP - 2019/2020 4

Os atributos ou variáveis que se pretende estudar nos elementos de

Tem-se as seguintes possibilidades:

 qualitativa (numérica ou não numérica): a variável representa

 qualitativa nominal: não há uma relação de ordem natural

Hugo Alonso, ULP - 2019/2020 5

 quantitativa (numérica): a variável representa quantidades,

 quantitativa contínua: a variável pode tomar qualquer valor

 quantitativa discreta: a variável toma apenas valores isola-

Fornecido um conjunto de dados, recorre-se a tabelas, grácos e me-

Hugo Alonso, ULP - 2019/2020 6

Dados univariados são dados de uma só variável. A sua representação

Tabela de frequências: tabela que disponibiliza um acesso rápido

Notação geral (símbolos convencionados):

Hugo Alonso, ULP - 2019/2020 7

Valores distintos Freq. abs. Freq. rel.

 n1 representa o número de vezes que foi observado o valor x01

Exemplo: perguntou-se a várias pessoas qual o seu estado civil:

Hugo Alonso, ULP - 2019/2020 8

Tabela para dados ordinais ou quantitativos discretos com

Hugo Alonso, ULP - 2019/2020 9

 n1 representa o número de vezes que foi observado o valor x01

Exemplo: perguntou-se a várias crianças qual o nível de ensino que

N.º de Prop. de N.º acum. de Prop. acum. de

Hugo Alonso, ULP - 2019/2020 10

Exemplo: um clínico decidiu estudar o número de acidentes de tra-

N.º de acidentes N.º de Prop. de N.º acum. de Prop. acum. de

Com base na tabela, é possível dizer, por exemplo, que 32 prossionais,

Hugo Alonso, ULP - 2019/2020 11

Uma variável quantitativa contínua pode tomar qualquer valor num

Construção das classes de valores:

1. Determinar o número k de classes (regra de Sturges):

onde M é o maior valor observado e m o menor

Hugo Alonso, ULP - 2019/2020 12

Construção da tabela de frequências:

Hugo Alonso, ULP - 2019/2020 13

 n1 representa o número de vezes que foi observado um valor na

O primeiro passo para sumariar esta informação consiste em construir

Hugo Alonso, ULP - 2019/2020 14

a = M − m = 14.8 − 4.1 = 10.7

3. Amplitude de cada classe:

Uma vez determinadas as classes em que os dados registados devem

Hugo Alonso, ULP - 2019/2020 15

Medidas estatísticas comuns para dados univariados

A representação tabular de dados univariados, vista anteriormente,

Medidas estatísticas para dados quantitativos

Moda: representa-se por x̂ e é o valor que ocorre com maior

Estatística Descritiva: conjunto de técnicas apropriadas

Estatística Inferencial: conjunto de técnicas que, com

x̄: média da amostra;

qualitativa (numérica ou não numérica): a variável representa

qualitativa nominal: não há uma relação de ordem natural

quantitativa (numérica): a variável representa quantidades,

quantitativa contínua: a variável pode tomar qualquer valor

quantitativa discreta: a variável toma apenas valores isola-

Fornecido um conjunto de dados, recorre-se a tabelas, grácos e me-

n1 representa o número de vezes que foi observado o valor x01

n1 representa o número de vezes que foi observado o valor x01

Com base na tabela, é possível dizer, por exemplo, que 32 prossionais,

n1 representa o número de vezes que foi observado um valor na

Disciplina ECTS Classicação (valores)

A classicação média é dada por

Coeciente de variação: representa-se por CV e é dado por

Coeciente de variação: CV = 1.1

Coeciente de variação: CV = 2.20

Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde

Assim, é possível dizer que 25% dos 397 prossionais envolvidos no

Assim, se ignorarmos os 25% de prossionais com menor número de

A média, o desvio-padrão e o coeciente de variação não são deter-

se os valores que surgem nas posições j e j + 1 forem iguais,

se os valores que surgem nas posições j e j +1 forem diferentes,

Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde

Q1 = P25 = 1.º ciclo:

Q2 = x̃ = P50 = 2.º ciclo:

Q3 = P75 = 3.º ciclo:

Q1 = P25 = 1.º ciclo:

Q2 = x̃ = P50 não está denido:

P50 não está denido